看研报 您所在的位置:网站首页 Jimmy page live aid是喝酒了吗 看研报

看研报

2023-04-23 09:08| 来源: 网络整理| 查看: 265

计算机行业“构筑中国科技基石”系列报告25:GPU研究框架-230213(102页).pdf

请务必阅读末页的免责条款和声明2023年年2月月13日日计算机行业“构筑中国科技基石”系列报告25GPU:研究框架(100页)中信证券研究部计算机团队杨泽原,丁奇2核心观点核心观点核心结论:核心结论:GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内GPU厂商纷纷大力投入研发快速厂商纷纷大力投入研发快速迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧,迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧,AI&数据中心、智能汽车、游戏等数据中心、智能汽车、游戏等GPU需求有望高增,国产需求有望高增,国产GPU迎来发展黄金期,我们看好国产迎来发展黄金期,我们看好国产GPU公司的发展与投资机公司的发展与投资机遇。遇。理解理解GPU的核心:性能先进性的核心:性能先进性 生态计算壁垒生态计算壁垒GPU物理性能取决于物理性能取决于微架构、制程、流处理器数量、核心频率等,微架构、制程、流处理器数量、核心频率等,其中微架构是核心点其中微架构是核心点。我们认为微架构的快速创新迭代是GPU性能领先的前提,其图形渲染单元和通用计算单元设计向着“更多、更专、更智能”的方向优化迭代。根据应用场景来划分,数据中心要求强算力、高并发吞吐量;游戏业务要求浮点运算能力强、访存速度快;图形显示要求图显专业化、精细化等。生态:生态:GPU生态构筑通用计算极深壁垒,生态构筑通用计算极深壁垒,CUDA生态占据大部分市场,类生态占据大部分市场,类CUDA生态蓬勃发展生态蓬勃发展。GPU生态由上层算法库,中层接口、驱动、编译器和底层硬件架构三大部分基本构成。GPU研发难度在图形渲染硬件层面和通用计算软件生态层面,在IP、软件栈方面研发门槛较高,需要较长的积累,先发优势明显。CUDA生态从2006年推出至今,经过不断发展完善,几乎已在行业生态内处于垄断地位,目前ROCm等兼容Cuda的类计算生态蓬勃发展并处于快速推广阶段。海外复盘:海外复盘:NVIDIA与与AMD(ATI)的竞争贯穿)的竞争贯穿GPU发展历程,架构创新升级和新兴发展历程,架构创新升级和新兴AI等领域前瞻探索是领跑的关键等领域前瞻探索是领跑的关键NVIDIA长期居于长期居于GPU市场领导地位,近年市场领导地位,近年AMD凭借凭借RDNA架构在游戏市场强势崛起。架构在游戏市场强势崛起。Verified Market Research数据显示,2022年全球独立GPU市场规模约448.3亿美元,NVIDIA和AMD的市场份额占比约为8:2。根据JPR数据,NVIDIA凭借自身性能领先和CUDA生态优势性始终占有GPU领域超50%的市场份额,数据中心业务更是全面领先,在游戏显卡领域,近年AMD凭借RDNA系列架构强势崛起。NVIDIA先后与先后与AMD等企业在性能方面竞争博弈,架构创新升级和新兴领域前瞻探索是领跑等企业在性能方面竞争博弈,架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键。行业的关键。NVIDIA凭借性能领先长期占据超五成市场份额,AMD(ATI)也曾因架构出色、性能惊艳实现反超。同时NVIDIA早在2006年前瞻性布局通用计算、构建CUDA生态,为如今AI&数据中心领域的全面领先构筑牢固的壁垒。NVIDIA积极布局异构芯片、汽车、元宇宙等新市场,寻找新的强有力业务增长点。2YnUuZjXuXcZwOxP9PbPbRtRnNsQpMeRrRtRfQnMtP9PmMvMwMtRqQvPoPnM3核心观点核心观点国内国内GPU市场:各应用场景市场广阔市场:各应用场景市场广阔,国内厂商大有可为国内厂商大有可为需求端需求端1AI:数据中心和终端场景不断落地对计算芯片提出更多更高需求。:数据中心和终端场景不断落地对计算芯片提出更多更高需求。新一轮AI对算力需求远超以往:ChatGPT类语言大模型底层是2017年出现的Transformer架构,该架构相比传统的CNN/RNN为基础的AI模型,参数量达到数千亿,对算力消耗巨大,对算力硬件有大量需求。甲子光年预测,中国AI芯片市场规模2023年达到557亿元。AI芯片可进一步细分为云端和终端,中国云端芯片市场规模较大,甲子光年预计2023年增长至384.6亿元,对应复合年增速到52.8%;终端芯片市场规模甲子光年预计2023年增长至173亿元,对应年复合增长率达62.2%,伴随各AI终端落地预计将保持较快增长速度。需求端需求端2汽车:汽车智能化浪潮下域控制器汽车:汽车智能化浪潮下域控制器GPU市场前景广阔。市场前景广阔。自动驾驶和智能座舱是智能汽车中具有广阔前景的方向。盖世汽车数据预计,2025年自动驾驶域控制器出货量将达到432万台,每台自动驾驶域控制器配备1-4片高性能计算GPU;智能座舱域控制器出货量达到528万台,绝大多数智能座舱域控制器配备1片GPU。自动驾驶技术不断提高和座舱进一步智能化拉动汽车GPU市场规模快速扩张。需求端需求端3游戏:游戏玩家人数持续增游戏:游戏玩家人数持续增长长,游戏,游戏GPU市场稳中有升。市场稳中有升。Newzoo Expert数据显示全球游戏玩家人数在2021年已达到30.57亿人,且预计2020-2025年全球游戏玩家人数复合年增率为4.2%;游戏市场内,游戏机和PC两大主体出货量再创新高,游戏机三大巨头2021年出货量高达4008万台;2021年Q4全球PC GPU出货量(包括集成和独立显卡)高达11000万片。投资建议投资建议:产业逻辑:产业逻辑:GPU的核心竞争力在于架构先进性能和生态丰富性,国产厂商正持续大力投入研发实现GPU架构创新升级和快速迭代,力争赶超国际领先水平;同时构建与主流适配良好的生态环境,打造自主开放的软硬件生态和信息产业体系。投资建议:外部不确定因素叠加内部加速自主创新背景下,投资建议:外部不确定因素叠加内部加速自主创新背景下,国产国产GPU厂商厂商有望有望加速加速崛起。伴随崛起。伴随政策大力扶持、国际科技贸易政策影响、国政策大力扶持、国际科技贸易政策影响、国产厂商产厂商产品产品性能性能提升提升及及生态生态逐步逐步完善完善,国产,国产GPU龙头龙头正迎来关键发展机遇。正迎来关键发展机遇。1)推荐:海光信息()推荐:海光信息(CPU GPGPU)。建议关注景嘉微、寒)。建议关注景嘉微、寒武纪(电子覆盖)。武纪(电子覆盖)。2)一级市场(排名不分先后):关注壁仞科技、摩尔线程、沐曦、天数智芯、登临科技、燧原科技等。)一级市场(排名不分先后):关注壁仞科技、摩尔线程、沐曦、天数智芯、登临科技、燧原科技等。风险因素:风险因素:产业链安全风险;市场竞争加剧风险;商业需求不及预期风险;产品研发不及预期风险;国产替代进程不及预期风险;宏观经济产业链安全风险;市场竞争加剧风险;商业需求不及预期风险;产品研发不及预期风险;国产替代进程不及预期风险;宏观经济环境风险。环境风险。4报告亮点与创新之处报告亮点与创新之处第一,我们我们从性能和生态从性能和生态2个维度构建个维度构建了了GPU完整完整的的研究研究体系体系。1)性能性能:决定GPU是否“高效”,其中微架构/制程是影响GPU性能的核心要素。2)生态生态:CUDA构筑通用计算坚固壁垒。第二,提出在评估提出在评估GPU性能的指标的重要性上:性能的指标的重要性上:微架构微架构、制程制程、流处理器数量流处理器数量、核心频率核心频率对对GPU性能影响性能影响较大较大。我们详细梳理了GPU的微架构、制程、显存容量/位宽/带宽/频率、核心频率等各类性能参数及重要性程度,并利用“核心数*核心频率*2”公式对性能算力进行量化,揭示可用3DMark、MLPerf 等GPU软件跑分进行相关性能测试评估。第三,详细拆解了详细拆解了NVIDIA Fermi和和Hopper两大典型微架构的具体硬件实现两大典型微架构的具体硬件实现,在顶点处理、光栅化计算、纹理贴图、像素处理的图形渲染流水线上对Fermi架构进行了拆分;在指令接收、调度、分配、计算执行的通用计算流水线上对Hopper架构进行了简单易懂的描述,并指明更多、更专、更智能等未来架构升级迭代的方向。第四,明晰了生态是构建通用计算壁垒的基石明晰了生态是构建通用计算壁垒的基石。提出GPU研发难度在图形渲染硬件和通用计算软件生态层面,在IP、软件栈方面研发门槛较高,需要较长的积累,先发者优势明显。CUDA生态从2006年推出至今,经过不断发展完善,几乎已在行业生态内处于垄断地位。第五,深度复深度复盘盘Nvidia/AMD(ATI)的的产品迭代和竞争产品迭代和竞争发展史发展史,通过对NVIDIA长期保持领先和AMD(ATI)反超进行总结得出结论:架构创新升级和新兴领域前瞻探索是领跑架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键行业的关键。第六,梳理和测算了国内GPU在AI&数据中心、智能汽车、游戏行业的市场空间和发展趋势市场空间和发展趋势。目录目录CONTENTS51.理解理解GPU的核心:性能的核心:性能 生态生态2.他山之石:他山之石:Nvidia/AMD竞争启示竞争启示架构创新升级和新兴领域前瞻探索架构创新升级和新兴领域前瞻探索是主旋是主旋律律3.国内市场:国内市场:GPU细分市场前景广阔,国内细分市场前景广阔,国内厂商大有可为厂商大有可为4.风险因素风险因素5.投资建议投资建议61.理解理解GPU的核心:性能的核心:性能 生态生态I.GPU:计算机图形处理以及并行计算的核心:计算机图形处理以及并行计算的核心II.性能:决定性能:决定GPU是否“高效”,其中微架构是是否“高效”,其中微架构是GPU性能领先的关键性能领先的关键III.生态:构筑通用计算壁垒生态:构筑通用计算壁垒7GPU全称全称是Graphic Processing Unit,即图形处理单元,是计算机显卡的核心。GPU是计算机的是计算机的图形处理以及并行计算内核图形处理以及并行计算内核。它的主要功能可以分为:1)图形图像渲染计算 GPU;2)作为运算协作处理器 GPGPU。GPU的功能主要集中于执行高度线程化、相对简单的并行任务处理。GPU vs GPGPU:GPGPU全称通用GPU,运用CUDA及对应开放标准的OpenCL实现通用计算功能运算,能够辅助CPU进行非图形相关程序执行。由GPU性能拓展至计算密集领域,将GPU强大的并行运算能力运用于通用计算领域。多侧重科学计算、AI领域、大数据处理、通用计算、物理计算、加密货币生成等领域。资料来源:NVIDIA官网资料来源:搜狐十一号组织,中信证券研究部GPU内部架构内部架构1.1 GPU定位:计算机图形处理以及并行计算的核心定位:计算机图形处理以及并行计算的核心GPU与与GPGPU对比对比GPUGPGPU主要执行任务图形渲染并行计算功能图形渲染、图形计算,对于游戏性能有关键影响多进行AI领域相关计算,科学计算和通用计算国内主要公司景嘉微、摩尔线程、象帝先、芯动科技、格兰菲、励算、深流微、芯瞳、绘智微壁仞、沫曦、登临、天数智芯、红山微电子、瀚博8依据接入方式不同分为:独立依据接入方式不同分为:独立GPU和集成和集成GPU。1)独立GPU:大部分封装于独立显卡电路板上,使用PCIE接口和特定显存,不受空间和供电限制,性能相对更好、渲染画质更佳。主要厂商包括AMD(Radeon系列)、NVIDIA(Geforce系列)。2)集成GPU:通常未拥有独立显存,集成于CPU内部,与CPU共同使用Die和系统内存,节省空间占位和制作难度,价格较低、兼容性更佳且供电量少。主要厂商包括Intel(HD系列)、AMD(APU系列)。依据应用端不同分为:依据应用端不同分为:PC GPU、服务器服务器GPU和移动和移动GPU。1)PC端:集成GPU主要运用于提高轻办公效率,对性能要求较低;独立GPU主要运用于图形设计、提高图片制作清晰度以及3A游戏绘图渲染能力,对性能要求较高。2)服务器端:主要进行专业可视化处理、AI训练、AI推断的深度学习、提高计算运行能力以及视频编解码等功能,以独立GPU为主。3)移动端:提高游戏体验、提升游戏处理性能,应用场景包括AR、桌面、云计算、数据中心等。受移动端功耗和体积限制,一般为集成GPU。资料来源:微信公众号GPU and Computing资料来源:微信公众号GPU and Computing独立独立GPU集成集成GPU1.1 GPU分类:应用于分类:应用于PC、服务器、移动端、服务器、移动端主要厂商及产品主要厂商及产品主要厂商主要厂商产品系列产品系列PC GPUNVIDIA、Intel、AMDXe LP、TITAN V 服务器GPUNVIDIA、AMDTesla、FireStream移动GPUImagination、高通、苹果、ARM、三星、华为、联发科PowerVR系列、Adreno系列、公版Mali系列、Exynos、麒麟资料来源:NVIDIA官网,CSDNFinovy Cloud,中信证券研究部9GPU产业链主要包括三大环节:设计产业链主要包括三大环节:设计、制造和封装制造和封装。GPU整体商业模式包括三种:整体商业模式包括三种:IDM和和、Fab Fabless和和 Foundry。IDM模式:指将GPU产业链的三个环节整体化,充分结合自主研发和外部代工,集设计、制造、封装为一体,公司垂直整合GPU整体产业链。Fab Fabless:充分发挥各企业比较优势,仅负责芯片电路设计,将产业链其他环节外包,分散了GPU研发和生产的风险。Foundry:公司仅负责芯片制造环节,不负责上游设计和下游封装,可以同时为多家上游企业服务。1.1 GPU产业链:产业链:设计设计制造制造封装封装GPU产业链产业链供给模式代表厂商供给模式代表厂商资料来源:华经情报网,各公司官网,中信证券研究部资料来源:IT智库,eefocus,中信证券研究部供给模式供给模式代表国外厂商代表国外厂商IDM英特尔、三星、TIFab FablessNVIDIA、Apple、AMD、ARM、Qualcomm、华为、海思、MTK、BroadcomFoundry台积电、SMIC、UMC、Global Foundries芯片制造芯片制造封装测试封装测试芯片设计芯片设计10性能是衡量性能是衡量GPU运行运行、执行命令高效的指标执行命令高效的指标。GPU物理性能评估主要在于比较各硬件的物理参数物理性能评估主要在于比较各硬件的物理参数。评估GPU物理性能的参数主要包括:微架构、制程、图形处理器数量、流处理器数量、显存容量/位宽/带宽/频率、核心频率。我们认为,评估GPU性能的指标依次为:微架构/制程流处理器数量/核心频率显存带宽/容量其他。1.2 GPU性能:衡量性能:衡量GPU“高效”的指标“高效”的指标资料来源:CSDNCharles Ren,NVIDIA官网,中信证券研究部GPU性能参数性能参数性能指标性能指标含义含义微架构GPU的硬件电路设计构造方式制程GPU的制造工艺和设计规则,代表不同电路特性,通常以生产精度nm表示图形处理器单元数量包含了光栅单元ROP,纹理单元TMU的数量,数量越多可执行指令越多CUDA核数CUDA是执行函数的重要部件,CUDA核数越多,性能运行越好Tensor核数指张量处理单元的数量,Tensor Core核数越多,性能越好核心频率指显示核心的工作频率,能反映显示核心的性能优良显存容量显存容量越大,GPU能够处理的数据量越大显存位宽指显存在单位时钟周期内所传送数据的位数,位数越大瞬间传送数据量越大显存带宽等于显存频率显存位宽/8,与显存频率、位宽成正比显存频率反映显存速度,以MHz为衡量单位,越高端的显存,频率越高11微架构:微架构:又称为微处理器体系结构,是硬件电路结构,用以实现指令执行。制程:制程:指GPU集成电路的密集度。在晶体管硬件数量一定的情况下,更精细的制程能够减少功耗和发热。现阶段GPU主流最先进工艺制程为5nm。核心频率:核心频率:代表GPU显示核心处理图像频率大小/工作频率,能够反映显示核心的性能。1.2 GPU性能影响因素:微架构、制程、核心频率性能影响因素:微架构、制程、核心频率GPU制程制程GPU微架构微架构资料来源:阿里云官网资料来源:半导体行业观察微信公众号12图形处理器单元数量:图形处理器单元数量:指GPU内部图形处理单元,涵盖光栅单元(ROP)和纹理单元(TMU)等数量。光栅单元(ROP):进行光线、反射计算,负责游戏中高分辨率、高画质的效果生成。纹理单元(TMU):能够对二进制的图形进行一系列翻转、缩放变化,再将其纹理传输至3D平面模型中。CUDA核数:核数:作为GPU内部的流处理器,是主要的计算单元,CUDA核数越多,GPU性能等级越高。Tensor核数:核数:能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行,Tensor核数越多,在人工智能、深度学习领域的性能越强。1.2 GPU性能影响因素:图形性能影响因素:图形处理器单元数量、处理器单元数量、CUDA核数、核数、Tensor核数核数GPU Tensor CoreGPU CUDA Core资料来源:SHERLOCK资料来源:NVIDIA A100 Tensor Core GPU Architecture白皮书13显存容量:显存作为显存容量:显存作为GPU核心部件核心部件,用以临时存储未处理数据用以临时存储未处理数据。显存容量的大小对于GPU存储临时数据的多少起决定性作用,在GPU核心性能能够提供充足支撑前提下,越大的显存容量能够减少数据读取次数,减少延迟出现。显存位宽:显存位宽:是GPU在单位时钟周期内传送数据的最大位数,位数越大GPU的吞吐量越大。显存频率:显存频率:显存数据传输的速度即显存工作频率,通常以MHz为显存频率计数单位。显存带宽:显存带宽:显存带宽=显存频率X显存位宽/8,为显存与显卡芯片间数据传输量。1.2 GPU性能影响因素:显存容量、显存位宽、显存频率、显存带宽性能影响因素:显存容量、显存位宽、显存频率、显存带宽显存带宽显存带宽显存频率显存频率资料来源:EXPreview资料来源:NVIDIA官网14微架构微架构(Micro Architecture):GPU的硬件电路设计构造方式的硬件电路设计构造方式。微架构又称为微处理器体系结构,是在图形函数和指令集条件下处理器中的执行方法。某一特定指令集可以在不同微架构中执行,但在运行过程中因设计目的不同而存在技术效果不同。GPU微架构包括流处理器微架构包括流处理器、渲染核渲染核、双精度浮点运算单元双精度浮点运算单元、特殊运算单元特殊运算单元、流式多处理器流式多处理器、纹理处理器纹理处理器、图形处理器图形处理器、流处理器阵列流处理器阵列。GPU架构工作流程为:Vertex Shader(定点着色器)建立图形骨架,再通过算法转化进行光栅化计算,进而进行纹理映射,再由PixelShader(像素着色器)像素处理,最终由ROP(光栅化引擎)输出。不同微架构决定了GPU各方面性能的不同,NVIDIA等国际GPU厂商均加大投入研发新架构作为提升竞争力的重要抓手提升竞争力的重要抓手。1.2 微架构的先进性:微架构的先进性:GPU性能的抓手性能的抓手微架构中各单元简介微架构中各单元简介微架构工作流程微架构工作流程资料来源:厦门大学许少聪,中信证券研究部资料来源:搜狐爱玩客iVankr,中信证券研究部绘制顶点着色器光栅生成器像素着色器光栅操作纹理单元名称名称功能功能流处理器(流处理器(SP)GPU最基本单元渲染核(渲染核(shader)升级版本的流处理器,用于顶点处理、像素处理双精度浮点运算单元双精度浮点运算单元(SFU)仅用于双精度浮点运算流式多处理器(流式多处理器(SM)基本计算单元,由SP、DP、SFU等构成纹理处理器簇(纹理处理器簇(TPC)由SM控制器、多个SM和L1缓存构成光栅化处理单元(光栅化处理单元(ROPs)对3D图形进行几何、设置、纹理和光栅处理张量单元(张量单元(Tensor Core)专门用于矩阵乘积累加的高性能计算核心几何处理光栅处理15Fermi架构共含架构共含4个个GPC,16个个SM,512个个CUDA Core。每每32个个CUDA Core组成组成1个个SM,每个每个SM为垂直矩形条带为垂直矩形条带。核心性能:核心性能:晶体管数高达30亿个,引入缓存单元,合计1MB可同时执行线程指令流24576个使用并行内核,全局分配逻辑支持与CPU并行传输1.2 微架构的先进性:以微架构的先进性:以 Fermi架构为例架构为例总览总览资料来源:NVIDIA官网Fermi核心微架构核心微架构16GPC为图形处理团簇为图形处理团簇,是是Fermi架构的组成核心架构的组成核心,负责顶点负责顶点、几何几何、光栅化光栅化、纹理和像素处理纹理和像素处理。组组成部分包括:成部分包括:1个光栅引擎Raster Engine(上部黄色部分)4个SM单元(矩形部分)SM之间彼此独立之间彼此独立,可各自调度多个可各自调度多个ThreadWraps到内部的图形渲染到内部的图形渲染、计算执行单元上运行计算执行单元上运行。1.2 微架构的先进性:以微架构的先进性:以 Fermi架构为例架构为例GPC架构拆分架构拆分资料来源:中关村在线Fermi GPC 核心微架构核心微架构17SM全称全称Streaming Multiprocessor,Fermi架架构下构下,每个每个SM具有具有32个个 CUDA Core,组成部组成部分包括:分包括:2 个 Warp Scheduler/Dispatch Unit(橙色部分)分别位于两条 lane 上的32 个 CUDA Core(绿色部分)1个register file-寄存器文件和 L1 cache(浅蓝色部分)16 个 Load/Store units(LD/ST Unit),支持各线程同时从Cache/DRAM存取数据4 个 Special Function Units(SFU),用于计算sin/cos这类特殊指令1.2 微架构的先进性:以微架构的先进性:以 Fermi架构为例架构为例SM架构拆分架构拆分资料来源:NVIDIA官网Fermi SM 核心微架构核心微架构18Host Interface(黑色部分黑色部分)为主机接口,图形渲染流水线中负责接收指令。通过PCI-Express 将 GPU和CPU相连接,并读取CPU指令。再通过Front End(前端)处理指令。GigaThread Engine(橙色部分橙色部分)为全局调度器,图形渲染流水线中负责将特定的数据从HostMemory中复制到Framebuffer中,创建Thread Blocks(线程块)再分配给各个彼此独立的SM线程调度器。1.2 微架构的先进性:以微架构的先进性:以 Fermi图形渲染流水线为例图形渲染流水线为例指令接收指令接收资料来源:NVIDIA官网,中信证券研究部Fermi核心微架构核心微架构Giga Thread EngineHost Interface19单个单个CUDA Core 组成部分包括:组成部分包括:1个Dispatch Port和1个Operand Collector、1个FPUnit和1个INT Unit和Result Queue。在图形渲染流水线中:在图形渲染流水线中:Vertex-shader执行单元对GPU前端读取的图形信息进行顶点数据确定,通过Vertex-shader 建立3D图形框架。1.2 微架构的先进性:微架构的先进性:以以 Fermi图形渲染流水线为例图形渲染流水线为例顶点处理顶点处理资料来源:NVIDIA官网,中信证券研究部Fermi 核心微架构核心微架构201.2 微架构的先进性:微架构的先进性:以以 Fermi图形渲染流水线为例图形渲染流水线为例顶点处理顶点处理资料来源:NVIDIA官网,中信证券研究部Fermi 核心微架构核心微架构PolyMorph Engine(黄色部分黄色部分,多形体引擎多形体引擎)是全球首款实现了可扩展几何学流水线的重要元件。主要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(AttributeSetup)、流输出(Stream Output)五个方面的处理工作。在图形渲染流水线中:在图形渲染流水线中:Vertex Fetch通过三角形索引取出三角形数据。Viewport Transform负责模块处理已完成vertex-shader的所有指令,进行裁剪三角形,准备栅格化。Attribute Setup确保经过插值后的vertex-shader数据在pixel-shader中的可读性。PolyMorph EngineVertex FetchTessellatorViewport TransformAttribute SetupStream Output211.2 微架构的先进性:微架构的先进性:以以 Fermi图形渲染流水线为例图形渲染流水线为例光栅化计算光栅化计算资料来源:NVIDIA官网,中信证券研究部Fermi 核心微架构核心微架构Raster Engine(黄色部分黄色部分)为光栅引擎,将光栅化处理硬件单元进行结合,包括Edge/Triangle Setup(边缘/三角形设定)、Rasterization(光栅化)和Z-Culling(Z轴压缩)。以流水线的形式运行指令,每时钟循环周期能够处理8个像素。在图形渲染流水线中:在图形渲染流水线中:将Vertex-shader生成图形上的顶点和线段转化为对应的像素点,光栅化引擎在过程中负责接受三角形的像素信息生成和背面提出、Early-Z剔除。Raster EngineEdge SetupRasterizerZ-Cull221.2 微架构的先进性:微架构的先进性:以以 Fermi图形渲染流水线为例图形渲染流水线为例纹理贴图纹理贴图资料来源:NVIDIA官网,中信证券研究部Fermi 核心微架构核心微架构Texture Mapping Unit(蓝色部分蓝色部分)为纹理映射单元,能够移动、变形、调整图形的大小和位置,主要功能是执行纹理采样。在图形渲染流水线中:在图形渲染流水线中:将图片对应贴至经过顶点处理、光栅化计算后形成的3D多边形骨架的表面上,进一步形成直观的图形。TexTexTexTex23在图形渲染流水线中:在图形渲染流水线中:Pixel-shader执行单元对经过光栅化处理的像素点进行计算和处理,进而确定每个像素的最终属性。1.2 微架构的先进性:微架构的先进性:以以 Fermi图形渲染流水线为例图形渲染流水线为例像素处理像素处理资料来源:NVIDIA官网,中信证券研究部Fermi 核心微架构核心微架构24L1 Cache为SM中的L1缓存,提高临时寄存器的使用效率,大幅降低CUDA运行耗时。在图形渲染流水线中负责处理寄存器溢出、堆栈操作和全局LD/ST,并且作为Vertex-shader和Pixel-shader的数据通信缓存。L2 Cache为L2缓存,与内部全部SM均相连通,为SM计算过程中需要读取相同数据的需求(如Vertex-shader和Pixel-shader)提供缓存支持。在图形渲染流水线中支持最终图形输出数据存放、读取操作,纹理操作,并且提供有效且高频的数据支撑。1.2 微架构的先进性:以微架构的先进性:以 Fermi图形渲染流水线为例图形渲染流水线为例最终输出最终输出资料来源:NVIDIA官网,中信证券研究部Fermi核心微架构核心微架构L2 Cache64 KB Shared Memory/L1 Cache25完整的完整的GH100 GPU架构包括以下单元架构包括以下单元:8个个 GPC、72个个TPC、2个个SM/TPC、每个完整每个完整 GPU 内含内含144 个个 SM。核心性能:核心性能:新型流式多处理器(SM),第四代Tensor Core提速6倍,DPX指令最高提速动态编程7倍,IEEEFP64和FP32芯片处理提速3倍。第二代多实例 GPU(MIG)技术,扩增计算容量将近3 倍。GPU 实例的显存带宽大幅度扩容近 2 倍,采用50MB 二级缓存架构,支持大数据量重复访问。第三代NVSwitch、PCle 5.01.2 微架构的先进性:以微架构的先进性:以 Hopper架构为例架构为例总览总览资料来源:NVIDIA H100 Tensor Core GPU Architecture白皮书Hopper 核心微架构核心微架构26每个每个GPC由由9个个TPC即纹理处理集群即纹理处理集群(TextureProcessor Cluster)组成组成。每个每个TPC包括包括2个个SM单元单元,256个个 FP32 CUDA Core 核心核心,8个个Tensor Core 核心核心。1.2 微架构的先进性:以微架构的先进性:以 Hopper架构为例架构为例GPC模块拆分模块拆分资料来源:NVIDIA H100 Tensor Core GPU Architecture白皮书,中信证券研究部Hopper GPC核心微架构核心微架构GPC线程块簇:线程块簇:相比先前架构中的线程块分布,Hopper架构中新增了簇层次结构,该线程块簇在GPC内跨不同SM并发运行,新增了全新的内存访问方式和协作功能,能够实现不同SM之间的数据共享。27SM全称全称Streaming Multiprocessor,Hopper架构下架构下,每个每个SM包含包含128 个个 FP32 CUDA Core核心和核心和 4 个第四代个第四代 Tensor Core 核心核心,主要组主要组成部分包括:成部分包括:1个L1 Instruction Cache,1个 Data Cache Cache 和4个L0 Instruction Cache(浅蓝色部分)4 个 Warp Scheduler(橙色部分)4个 Dispatch Unit(红褐色部分)4个Register file-寄存器文件(青色部分)128个 FP32 Unit(草绿色部分)64 个 FP64 Unit(墨绿色部分)4 个 Special Function Units(SFU/橘红色色部分)32个 LD/ST Unit(深红色部分)1.2 微架构的先进性:以微架构的先进性:以 Hopper架构为例架构为例SM模块拆分模块拆分资料来源:NVIDIA H100 Tensor Core GPU Architecture白皮书Hopper SM核心微架构核心微架构28L0 Instruction Cache:全称指令缓冲区,能够存储 GPU用以绘图显示、数据变更、复制资源等指令的存储容器。在通用计算在通用计算-GPGPU流水线中:流水线中:主要负责检查当前指令(instruction)中的数据是否完备(ready)。分为两种情况处理:数据完备,传入Warp;数据不完备则存储于Instruction Buffer中。Instruction Buffer可以屏蔽掉总线延时。因为GPU流水线上任务是并行处理,互不依赖的。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算流水线为例通用计算流水线为例指令接收指令接收资料来源:NVIDIA H100 Tensor Core GPU Architecture白皮书,中信证券研究部Hopper SM核心微架构核心微架构L0 Instruction Cache29Warp Scheduler:全称线程束调度器,在CUDA中,每32个线程组成线程束(warp),指令以一个warp为单位执行。在通用计算在通用计算-GPGPU流水线中:流水线中:主要负责任务调度。Warp Scheduler需要先确认当前Function Unit的状态,再将Instruction Buffer中已完备(ready)的指令调度给下一级的DispatcherUnit。在单个时钟周期内可以同时调度两个warp指令。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算流水线为例通用计算流水线为例指令调度指令调度资料来源:NVIDIA H100 Tensor Core GPU Architecture白皮书,中信证券研究部Hopper SM核心微架构核心微架构Warp Scheduler30Dispatcher Unit:全称调度单元,可依据输入的数据、信息决定下一步需要调动的程序模块。在通用计算在通用计算-GPGPU流水线中:流水线中:主要负责根据指令(instruction)和Threadmask计 算 出 下 属 各 个 function unit 的 instruction 和register offset,用其计算结果,将指令传递至处于闲置状态的function unit下运行。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算流水线为例通用计算流水线为例指令分配指令分配资料来源:NVIDIA H100 Tensor Core GPU Architecture,中信证券研究部Hopper SM核心微架构核心微架构Dispatch Unit31Function Unit:为SM中的核心组成部件,称作功能单元,包括INT32 Unit、FP32 Unit、FP64 Unit、LD/ST Unit和SFU。在通用计算在通用计算-GPGPU流水线中:流水线中:FP32 Unit和 FP64 Unit分别支持FP16/FP32的低精度计算以及FP64的高精度计算。LD/ST Unit即加载/存储单元负责处理寄存器文件中的读写值SFU负责用于计算正弦函数、余弦函数、指数、对数、倒数等特殊指令。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算流水线为例通用计算流水线为例计算执行计算执行资料来源:NVIDIA H100 Tensor Core GPU Architecture,中信证券研究部Hopper SM核心微架构核心微架构FP64 UnitFP32 UnitSFULD/ST Unit32Tensor Core:专门用于MMA(矩阵乘积累加)的高性能计算核心,可大幅度提升AI和HPC应用的性能。与其他运算相比,能够实现在GPU 内跨 SM 并行运行,并大幅提高吞吐量和效率。在通用计算在通用计算-GPGPU流水线中:流水线中:Tensor Core 专用于矩阵运算执行,对各类型数据高效管理,能够节省30%的操作数传输功耗。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算流水线为例通用计算流水线为例计算执行计算执行资料来源:NVIDIA H100 Tensor Core GPU Architecture,中信证券研究部Hopper SM核心微架构核心微架构33全能计算型浮点运算单元全能计算型浮点运算单元CUDA Core:架构上划分为不同精度的计算核心支持多种数据类型,包括INT32、FP32、FP64,每次运算执行一次乘法 1 x 1 per GPU clock。张量运算专用执行单元张量运算专用执行单元Tensor Core:专门为深度学习、神经网络训练和推理运算设计的运算内核,支持 FP8、FP16、BF16、TF32、FP64 和 INT8 MMA 数据类型,每次运算执行一次矩阵乘法 1 1 11 1 11 1 1x1 1 1per GPU clock1 1 11 1 11.2 微架构的先进性:以微架构的先进性:以 Hopper架构为例架构为例CUDA vs Tensor Core资料来源:NVIDIA H100 Tensor Core GPU Architecture,中信证券研究部Hopper SM核心微架构核心微架构34L1 Data Cache为SM中的L1数据缓存,也称共享缓存,单个L1缓存有256KB的存储容量。在通用计算流水线中L1缓存负责缓存内存地址,作为连续缓存供给warp调度器使用。L2 Cache为L2缓存,也称二级缓存,与内部全部SM均相连通,作为公用缓存支持GPU读取操作。在通用计算流水线中作为Global Memory缓存,存储GPU的部分拷贝,容量大,供给整体GPU使用。1.2 微架构的先进性:以微架构的先进性:以 Hopper通用计算通用计算流水线流水线为例为例结果输出结果输出资料来源:NVIDIA H100 Tensor Core GPU Architecture,中信证券研究部Hopper 核心微架构核心微架构L2 CacheL1 Data Cache/Shared Memory351.2 架构的先进性:架构的先进性:NVIDIA历代微架构对比历代微架构对比NVIDIA历代微架构对比历代微架构对比资料来源:NVIDIA官网,中信证券研究部架构代号架构代号FermiKeplerMaxwellPascalVoltaTuringAmpereHopper中文代号费米开普勒麦克斯韦帕斯卡伏特图灵安培赫柏时间20102012201420162017201820202022核心参数16个SM,每个SM包括32 Cuda Cores,共计512 Cuda Cores15个SMX,每个SMX包括192个单精度 64个双精度的Cuda cores16个SMM,每个SM包括4个处理块,每个处理块包括32个CUDA内核 8个LD/STUnit 8个SFUPascal架构有GP100、GP102GP100有60个SM每个SM包括64个cuda cores32个DP cores80个SM,每个SM里32个FP6464个lNT3264个FP328个Tensor coreTU102核心72个SM,SM全新设计,每个SM里64个lNT3264个FP328个Tensor coreA100有108SMs每个SM64个FP3264个INT3232个FP644个Tensor coreH100有132 SM每个SM128个FP3264个INT3264个FP644个Tensor core特点优势首个完整GPU计算架构,支持与共享存储结合纯Cache层次的GPU架构,支持ECC的GPU架构游戏性能大幅提升首次支持GPUDirect技术相比Kpler的每组SM单元192个减少到了每组128个,但是每个SMM单元拥有更多的逻组控制电路NVLink一代,双向互联带宽160GB/s P100有56个SM HBMNvlink2.0Tensor Core 1.0满足深度学习和AI运算Tensor Core 2.0RT Core 1.0Tensor Core 3.0RT Core 2.0Nvlink 3.0结构稀疏性MIG1.0Tensor Core 4.0Nvlink 4.0结构稀疏性矩阵MIG 2.0纳米制程40/28nm30亿晶体管28nm71亿晶体管28nm80亿品体管16nm153亿品体管12nm211亿晶体管12nm186亿晶体管7nm283亿晶体管5nm800亿个晶体管代表型号Quadro 7000K80K40MM5000M4000P100GTX1080P6000V100TiTan VT42080TIRTX 5000A100、A303090H10036更多:硬件上更多:硬件上,图形渲染单元和通用计算单元数量增多图形渲染单元和通用计算单元数量增多。GPU产品迭代发展过程中,包括晶体管、流处理器单元、纹理单元和光栅单元等硬件单元数量上升。以NVIDIA A100和H100产品架构对比为例,在SM数量、TPC数量、FP32 Core核心数量、FP64Core 核心数量上都具有显著增加,同时也使得H100在性能峰值上得到显著提升。1.2 微架构未来方向:微架构未来方向:更多、更专更多、更专、更智能、更智能更多:硬件单元数量增多更多:硬件单元数量增多资料来源:NVIDIA官网,中信证券研究部A100H100Tensor Cores432528SM数量108132TPC数量5466FP64 CUDA Cores34568448FP32 CUDA Cores691216896Menory Bandwidth2TB/sec3TB/sec使用 FP16 累加的 FP16 Tensor TFLOPS 峰值312/6241000/2000FP32 Vector19.5TFLOPS60 TFLOPSFP64 Vector9.7 TFLOPS(1/2 FP32 rate)30 TFLOPS37更专:图形渲染能力更精细更专:图形渲染能力更精细,通用计算能力更高效通用计算能力更高效。图形渲染领域:图形渲染领域:采用光线追踪技术,相较传统光栅化渲染方式,光线追踪采用基于物理渲染方式,使得所实现的效果更加接近显示,具有更加逼真的图显能力。通用计算领域:通用计算领域:目前国际各大厂商均推出GPGPU计算解决方案,大规模扩展计算能力的高性能计算。例如:1)ATI Stream:为程序员提供SDK开发工具包以协同进行GPU计算。2)NVIDIA CUDA:推出统一计算架构,由管线分工式设计转变为统一化的处理器设计,学习成本较低,能够通过C、C 编程语言进行程序编写。1.2 微架构未来方向:微架构未来方向:更多、更专更多、更专、更智能、更智能更专:图形渲染更专:图形渲染 Ray Tracing GPU资料来源:EXPreview倪嘉声38更智能:更智能:GPU AI运算能力上升运算能力上升。GPU在AI领域得到广泛的应用,包括自动驾驶、医疗影像分析、人工智能计算能力、金融模型建立等领域,如第三代的张量单元相较于上代在吞吐量上提升了1倍。GPU自身结构特点决定其在AI的发展方向:1)多线程,计算单元数量多,并行计算方式能够同时计算大量数据。2)拥有更直接、迅速访问缓存的能力。3)拥有更高精度的浮点算力,能够更佳适配于推理训练、深度学习。1.2 微架构未来方向:微架构未来方向:更多、更专更多、更专、更智能、更智能更更AI智能智能资料来源:NVIDIA官网39评估评估GPU性能的参数主要包括:性能的参数主要包括:算力算力、纹理纹理/像素填充率像素填充率、功耗功耗、加密性能等加密性能等。算力性能参数的核心指标包括算力(单/双精度浮点性能等)、功耗。GPU算力越强,GPU的综合计算能力和运行性能越强。图形渲染性能参数的核心指标包括纹理填充率、像素填充率等。其他性能参数:显存使用率、加密性能等。一般NVIDIA的GPU的F32峰值算力计算方法为:核心数*核心频率*21.2 GPU跑分指标:跑分指标:GPU性能的直观体现性能的直观体现资料来源:CSDNCharles Ren,CSDNAliceWanderAI,中信证券研究部GPU性能参数指标性能参数指标性能指标性能指标含义含义算力也称计算吞吐量,单位为GFLOP/s,表示每秒浮点运算量纹理填充率指GPU在单位时间内所能处理的纹理贴图数量,单位为Mtexels/S,计算公式为核心频率纹理单元数目/1000像素填充率等于ROP运行的时钟频率 x ROP的个数 x 每个时钟ROP可以处理的像素个数,表明GPU每秒处理像素数量功耗指功率的损耗,即输入与输出功率之差,一般体现于元器件上热能的耗散加密性能包括AES-256和SHA-1哈希两项常用加密技术的性能单精度浮点性能评估三维图形显示能力,通过“Julia”分形测量,计算公式为核心数*核心频率或FP32 cores GPU Boost Clock 2双精度浮点性能用于评估三维图形生成能力,通过“Mandelbrot”分形测量,计算公式为FP64 Cores GPU Boost Clock 240GPU的性能指标可以通过的性能指标可以通过GPU综合评分软件进行直观的比较。综合评分软件进行直观的比较。常见常见GPU测试工具包括测试工具包括GPU-Z、Mlperf、3DMark、FurMark、AIDA64 Extreme、GpuTest和和Gpu burn等。等。基本信息检测主要通过GPU-Z;主流游戏测评主要通过3DMark;AI 性能基准测试主要通过Mlperf。1.2 GPU性能测试跑分性能测试跑分常见常见GPU测试工具测试工具资料来源:CSDNStarkerRegen,volvootofinans,中信证券研究部测试测试工具名称工具名称描述描述3DMark提供 Time Spy、Fire Strike、Tomb Raid等测试MLperf由学术界、研究实验室以及与AI领域相关等机构联合发起,针对软硬件的推理、训练性能提供评估GPU-Z显示包括显卡型号,显存型号,显卡品牌,基本规格,动态频率,实时温度等重要信息FurMark可进行温度压力测试,稳定性测试和OpenGL测试MSI Kombustor通过密集模拟和演示进行显卡测试,且提供热性能和稳定性测试OCCT测试电压、频率和分辨率等超频参数的稳定性AIDA64 Extreme 提供GPGPU Benchmark 测试。包括 GPU 在内的系统稳定性测试GpuTest基于TessMark的曲面细分测试、几何实例测试,还提供对GPU进行OpenGL基准压力测试Gpu_burn提供gpu压力测试413DMark集成了集成了PC和移动设备内游戏完整的基准测试,能够为不同和移动设备内游戏完整的基准测试,能够为不同PC适配不同测试,且通过适配不同测试,且通过3DMark分数实现与其他分数实现与其他CPU、GPU组合系统比较,提供游戏性能估算。组合系统比较,提供游戏性能估算。3DMark经过近10年更新,现已覆盖十多项基准测试、压力测试和功能测试。1.2 GPU图形渲染游戏性能测试图形渲染游戏性能测试3DMark3DMark 测试汇总测试汇总资料来源:3DMark官网,中信证券研究部测试测试工具名称工具名称适配设备适配设备描述描述Time Spy游戏型 PC对windows系统下游戏型 PC 的 DirectX 12 基准测试。是DirectX 12 前期研发的应用程序之一,有助于实现新API 提供的性能收益。Port RoyalPC游戏玩家的实时光线追踪基准测试。同时支持微软 DirectX 显卡的光线追踪性能。Night Raid具有集成显卡 的PC针对windows系统下装配集成显卡和 Arm 处理器的低功耗平台等的小型移动运算设备的 DirectX12 基准测试Wild LifePC、智能移动设备适用于微软、安卓和 iOS 系统的跨平台基准测试。使用 Vulkan 图形 API。Fire Strike游戏型 PC 使用于游戏型PC 的 DirectX 11 基准测试产品。Fire Strike 包括显卡测试、物理测试和CPU 和 GPU 联合测试。CPU Profile现代处理器导入新的 CPU 基准测试方法,共包含六个测试存储基准测试游戏玩家SSD扩展了 3DMark测试范围,用于存储硬件包括SSD在内等的游戏性能。压力测试PC针对组装型 PC在 GPU升级和超频情况下对系统可靠性和稳定性检测,可定位硬件故障42MLPerf 基准测试不仅提供基准测试不仅提供AI训练测试,还训练测试,还提供提供推理解决方案支持。推理解决方案支持。在训练领域,MLPerf 覆盖八大工作负载测试,包括视觉渲染、语言识别、个性化推荐和深度学习等。在推理领域,MLPerf 在七大不同神经网络进行用例测试,包括计算机视觉领域、推荐系统、语言处理和医学影像场景。1.2 GPU AI性能测试性能测试MLPerfMLPerf 提交分类提交分类资料来源:MLPerf 官网,中信证券研究部测试测试性能性能描述描述图像分类提供离线场景(Offline Scenario)性能测试,适用于计算机视觉问题,从一组固定的类别中分配一个标签到一个输入图像目标检测(轻量级)在图像或视频中确定实物目标对象的能力,并在每个标的对象周围指定一个边界框目标检测(重量级)分层检测图像中出现的重视程度不同的对象能力,并分别鉴别对象像素掩码生物医学图像分割基于神经网络,主要对医学影像中复杂图形的识别能力进行测试,通过三维分割技术执行提供医学用例自动语音识别(ASR)测试实况识别对话,音频转录能力。自然语言处理(NLP)指能够根据文本上下文对语段进行理解,并且提供回答问题、解释语句的能力。推荐系统能够通过了解用户与产品广告的交互及内容,在公开社交网站、商务网址等面向特定客户提供个性化推荐能力强化学习评估不同行为的可能性,能够在测试游戏中赢得比赛。43GPU技术不断发展技术不断发展,GPU的应用场景也随之不断拓宽的应用场景也随之不断拓宽,不仅包含图形处理不仅包含图形处理,还在还在AI、边缘计算等新领域发挥重要作用边缘计算等新领域发挥重要作用。图形显示是图形显示是GPU最基本的功能最基本的功能GPU的诞生原因就是分担CPU计算量,凭借其处理并行计算的优势承担图像信息的运算工作。在游戏画面显示、图像运算等领域广泛应用。GPGPU被视为被视为AI时代的算力核心时代的算力核心应用于人工智能场景的服务器通常搭载GPU、FPGA、ASIC等加速芯片。加速芯片和中央处理器的性能结合支撑高吞吐量的运算需求,为图形视觉处理、语音交互等场景提供算力支持,已经成为人工智能发展的重要支撑力量。GPU由于在架构设计上擅长进行大量数据运算,被广泛应用于人工智能计算中。在人工智能的应用和研究、智能安防、边缘计算、无人驾驶等领域发挥作用。资料来源:电子元器件论坛华秋商城,中信证券研究部GPU重要应用场景重要应用场景1.2 应用场景:数据中心、游戏业务、图形显示、应用场景:数据中心、游戏业务、图形显示、OEM、加密货币、加密货币应用场景应用场景主要特点主要特点具体应用方式具体应用方式类型类型数据中心作为加速芯片集中于AI计算领域,覆盖数据中心加速器、边缘计算GPGPU为主游戏业务并行计算结构、浮点运算能力强、访存速度快游戏绘图、画质渲染、增强用户游戏体验,云游戏平台建设传统GPU 图形显示图显专业化、精细化广泛渗透于Quadro专业绘图、3D渲染、专业设计软件、传输DPU传统GPUOEM&IP高性能、低功耗、产品迭代速度快服务器厂商核心技术开发、半导体行业IP大厂授权GPGPU为主加密货币核心数量多,适合大量重复的较简单运算挖矿速度与矿机算力正相关GPGPU为主44GPGPU:为通用图形处理器,擅长图形处理,“粗粒度并行”技术。特点为拥有高灵活性、运用并行结构、在图形和复杂算法上效率较高;缺点为价格贵且功耗高。FPGA:为现场可编程逻辑阵列,擅长于算法更新频繁的专用领域。特点为灵活性适中、可以同时进行数据并行和任务并行计算、制作成本低于ASIC、定制化、功耗低。在国内多用于芯片验证。ASIC:为专用集成电路,应用于市场需求量大的专用领域。指应特定用户要求和特定电子系统的需要而设计、制造的集成电路,特点是灵活性较低、高性能、成本高、可靠性高。缺点是算法相对固定、开发时间成本高。1.2 应用场景:人工智能芯片应用场景:人工智能芯片GPGPU、FPGA、ASIC的选择的选择资料来源:爱码网X-knight,Stack,CSDNzj xlink,中信证券研究部GPGPU FPGA ASIC对比对比定义定义技术技术应用场景应用场景GPGPU通用图形处理器将GPU与CPU结合,并将一些计算密集型任务从CPU移到到GPU,CUDA编程环境和CTM编程环境的出现,使GPU打破图形语言的局限成为真正的并行数据处理超级加速器。人工智能计算,多媒体分析、无人驾驶、VR/AR等产业、金融、电信等行业FPGA现场可编程逻辑阵列在 PAL、GAL、CPLD 等可编程器件基础上进一步发展,用户可以通过烧入FPGA配置文件定义门电路与存储器连线,使其具有不同功能人工智能、信号处理、嵌入式处理、原型验证、接口应用与逻辑黏合ASIC专用集成电路,指应特定用户要求和特定电子系统的需要而设计、制造的集成电路采用定制设计,用复杂可编程逻辑器件和FPGA 进行设计,与用户系统密切结合安全相关产品、人工智能、消费电子、航空航天及其他为特定用途定制的场景45GPU指令集本质是硬件执行功能的机器码指令集本质是硬件执行功能的机器码。指令是计算机运行的最基本工作单位,是GPU功能实现的重要基础,通常包括指令格式、寻址方式和数据形式等。GPU指令集是GPU中用以计算和控制系统的指令集合,指令集的先进与否直接关系到GPU性能的高低。操作系统通过指令集对硬件进行管理和资源分配,并规范程序按认可方式编译运行。GPU指令集分类包括PTX、CUDA SASS指令集等。1.3 GPU指令集:指令集:GPU进行图形渲染和通用计算的指令集合进行图形渲染和通用计算的指令集合CUDA SASS 指令集指令集资料来源:CUDA编程方法论cloudcore,中信证券研究部IMAD本身为计算整数d=a*b c(左图为R4=R5*R0-R4)的指令,单独的IMAD等同于三个32bit数进行乘加。WIDE在IMAD指令的基础上,表示乘数a和b为32位,加数c为64bit,输出结果d也为64bit。SHL表示乘数b为2的幂次,不需要完整的乘法器功能,不影响计算结果。IADD表示乘数b为1,能够让功能单元得到更明确的信息,进而优化计算。46指令集相关性质:指令集相关性质:指令集本身在特定架构改变下会表现为指令性能变化,而本身的编码和功能并没有发生改变。兼容性:经过CUDA C、C 编译完成后,会同时生成与SM单元对应的PTX和SASS代码。指令执行吞吐是评价GPGPU执行的有效指标,GPU指令吞吐一般用每单位SM在一周期内执行的指令数量计算SASS指令集分类:指令集分类:主要包括Predicate操作指令、Float指令、Integer指令、格式转化/数据移动/内存操作/跳转分支指令和UniformDataPath指令1.3 GPU指令集:以指令集:以 SASS指令集为例指令集为例资料来源:CUDA编程方法论cloudcore,中信证券研究部SASS指令集基本分类指令集基本分类指令名称指令名称描述描述Predicate操作指令也称作guard predicate,由4bit编码指定,是控制线程是否执行指令的方式之一Float指令基本包含4大类:float64、float32、float16和MUFU指令Integer指令基本包含算术指令、移位指令、逻辑操作指令和其他位操作指令格式转换指令主要为数值格式的转换,在整型和浮点型间转化数据移动指令以MOV指令、PRMT指令为首的数据搬运操作内存操作指令指令较为复杂,包含memory的load操作和store操作、Cache control指令、Texture操作指令以及Surface操作指令跳转和分支指令是SASS指令集中最频繁随架构变动的指令,包含了定向跳转或条件定向跳转、不定跳转、分支管理操作、跳转目标管理和特殊跳转指令Uniform DataPath指令与SM中用于warp公共计算的ALU功能单元相配套,使得每个warp只需要单个执行47MOV:能够完成基本传送指令能够完成基本传送指令MOV指令是编程中最基本的指令,能够将数据从起始源地址传送到目标地址。功能范围覆盖立即数传送、寄存器传送、储存器传送、段寄存器传送。MUFU:作为作为SASS指令集中计算超越函数的重要工具指令集中计算超越函数的重要工具。超越函数指的是相对有限次加减乘除等组合而言,硬件上无法用多项式表示的函数需要通过该指令进行近似计算,若对精度有进一步要求,还需要调用数学函数库中其他软件。1.3 GPU指令集:以指令集:以 SASS中的具体指令为例中的具体指令为例MOV 立即数传送示例立即数传送示例常见的常见的MUFU类指令类指令资料来源:CSDNJock.Liu资料来源:CUDA编程方法论cloudcore48完善的完善的GPU生态体系能够兼容不同的软件生态体系能够兼容不同的软件、硬件平台硬件平台,使得使得GPU性能得到最佳释放性能得到最佳释放。GPU生态的由三大部分基本构成:1)上层图形引擎、算法库。2)中层标准API接口适配各类驱动、编译器。3)底层硬件/指令集架构。1.3 GPU生态体系:生态体系:构筑通用计算壁垒构筑通用计算壁垒资料来源:各公司官网,中信证券研究部GPU 生态构筑基本架构生态构筑基本架构指令集架构指令集架构/GPU型号型号标准标准API图形引擎图形引擎/算法库算法库49IP研发难度高:研发难度高:IP研发难度大、需要多年沉淀才能产出稳定性较佳的产品。目前GPU领域中,想要短期内产出需要依赖外部IP授权。市场上大多公司使用Imagination提供的IP,即在购买商用GPU IP之后自行修改迭代。以苹果芯片IP专利为例,苹果在A10之前处理器芯片都是采用lmagination的IP。软件门槛高:软件门槛高:计算机芯片除了硬件之外,还要求有与之配套的软件体系,而GPU软件体系复杂,涵盖各类图形API、计算接口、基础库、应用对接适配等等。NVIDIA在各类软件驱动测试上已投入大量时间,形成较强的生态效应。1.3 GPU生态体系:构筑行业壁垒的基石生态体系:构筑行业壁垒的基石资料来源:ESM ChinaApple A10芯片芯片GPU 软件软件资料来源:Techpowerup50规模化商用难:规模化商用难:要实现规模化商用,就需要厂商实现软硬件技术生态完整部署。由于行业在生态建设上先发优势明显,NVIDIA通过早期与客户企业的平台适配、软件开源合作,较好的用户体验加强了客户粘性,使新的竞争企业难以进行转移。市场认可度:市场认可度:市场认可度一方面需要生产商具备生产高品质产品的实力,另一方面需要用户经过一定时间使用形成反馈累积为企业信誉。在GPU市场内,长期以来,AMD和NVIDIA两大产商占据了主要市场份额,也相应形成了较高的市场认可度,客户在选择产品时普遍优先考虑这两大产商的产品;其他厂商的产品,由于未使用过且市场认可度不高,存在较大的不确定性,客户选购意愿较低。1.3 GPU生态体系:生态体系:构筑通用计算壁垒构筑通用计算壁垒资料来源:搜狐计算杂谈NVIDIA合作伙伴合作伙伴NVIDIA 和和 AMD GPU主打产品系列主打产品系列资料来源:百家号只说数码科技51CUDA概述:概述:CUDA是NVIDIA研发的通过利用GPU运算处理的编程、并行计算平台,大幅度提高计算效率。CUDA目前广泛应用于诸多领域,包括CT图像再现、光线追踪、视频处理、计算生物学以及化学等。CUDA平台形成庞大的生态系统几乎占据全部市场平台形成庞大的生态系统几乎占据全部市场NVIDIA最新生态架构组件包含六大部分:编程语言和API、开发库、分析和调试工具、数据中心工具和集群管理、GPU加速应用程序和GPU与CUDA架构链接。在通用计算在通用计算GPU领域的生态几乎是被领域的生态几乎是被CUDA生态所占据生态所占据。CUDA生态建设难度高、要求复杂。1.3 GPU生态体系:以生态体系:以NVIDIA CUDA平台为例平台为例资料来源:CSDN奔跑的小蘑菇,中信证券研究部CUDA生态系统组件生态系统组件CUDA工具包工具包/支持应用支持应用/GPU第三方工具链第三方工具链编程语言和APIPGI 工具包、C、C 、Fortran、PythonPyCUDA、Altimesh Hybridizer、OpenACC、OpenCL、Alea-GPU 开发库cuBLAS、cuRAND、cuFFT、cuSPARSE、cuTENSOR、cuSOLVER、nvGRAPH、Thrust、nvJPEG、NPP、光流SDK、NVSHMEM、NCCL、cuDNN、TensorRT、Riva、DALIOpenCV、FFmpeg、ArrayFire、MAGMA分析和调试工具NVIDIA Nsight、CUDA GDB、CUDA-MemcheckARM Forge、TotalView Debugger、PAPI CUDA Component、TAU Performance System、VampirTrace数据中心工具和集群管理HPC 容器、Kubernetes、DCGM、NVML APIBright Cluster、Ganglia、StackIQ、Altair PBS WorksGPU与CUDA架构链接GeForce GPU、Quadro GPU、数据中心 GPU、Tegra/52CUDA栈组成:栈组成:CUDA技术栈由NVIDIA GPU、Operating System、CUDA Driver和CUDA程序组成,其中底层GPU提供硬件支持相关指令运行,操作系统环境和驱动将底层硬件与上层软件(CUDA程序、函数库等)连结。同时CUDA提供广泛的开发工具和集成:Nsight、Visual Profiler、CUDA MemCheck、CUDA GDB 和 OpenACC等。CUDA软件堆栈主要由软件堆栈主要由CUDA Library、CUDA runtime API和和CUDA driver API三层组成三层组成其核心是CUDA C语言,通过nvcc编译器进行翻译、运行。1.3 GPU生态体系:以生态体系:以NVIDIA CUDA平台为例平台为例资料来源:CSDNMoussaTintin,NVIDIA官网,中信证券研究部CUDA栈组成栈组成主要栈组成主要栈组成描述描述CUDA程序C Runtime、CUDA库CUDA DriverPTX(ISA)、SASSOSLinux、Windows、MacNVIDIA GPUGeForce RTX系列、Tesla 系列、Quadro系列、Titan系列CUDA软件堆栈组成软件堆栈组成主要软件栈组成主要软件栈组成描述描述CUDA C语言C 拓展引入函数类型限符、变量类型限定符和内置变量类型等Nvcc编译器作为驱动编译器,能够输出PTX,CUDA二进制序列和标准CAPI包括了运行时(Runtime)API和驱动(Driver)API,实现多种管理、提高互操作性函数库提供简单高效的常用函数,包含CUFFT,CUBLAS和CUDPP三个函数库资料来源:博客园青竹居士,NVIDIA官网,中信证券研究部53CUDA萌芽及发展:萌芽及发展:NVIDIA CUDA平台最早于2006年初步形成,在2007年正式推出CUDA1.0公测版本。在2008年-2010年,CUDA平台进一步发展,拓展了新局域的同步指令、扩充全速常量内存并且支持递归,NVIDIA向各软件厂商免费提供开发工具,使得CUDA生态初具规模。在2008年推出CUDA 2.0版本,2010年推出CUDA 3.0版本。1.3 GPU生态体系:以生态体系:以NVIDIA CUDA平台发展历程为例平台发展历程为例资料来源:NVIDIA官网,中信证券研究部NVIDIA CUDA平台发展历程平台发展历程200620072008201020112006年末:收入超过40亿,市值增长近5倍,显卡市场竞争激烈2008年:业务转型,将并行处理运用于通用计算2007年第一季度:营收业绩超过10亿2008年:创建Tesla GPU平台2010年3月:发布CUDA 3.0 Toolkit支持Fermi/C 2006年11月:CUDA与G80产品同步诞生2007年2月:NVIDIA首次发布了CUDA的公测2007年末:推出CUDA 1.1测试版2007年6月:CUDA 1.0版与Tesla同时发布2008年5月:发布CUDA 2.0版beta版本2008年:推出CUDA SDK2.0版本2008年:收购Mental images和AGEIA2010年:推出Optimus技术,可自动管理GPU电池54CUDA进一步发展与完善:进一步发展与完善:随着2011年 CUDA 4.0的推出,标志着NVIDIA在HPC((High performance computing)即高性能通用计算领域的一大突破。结合GPUDirect2.0技术,实现GPU内部全局统一定址,并且拥有更加完善的C 支持,在性能和协作方面都得到了较大的提升。在2012-2020年间,NVIDIA基本保持历年推出新一代CUDA平台的频率,对其生态和效率进行完善与升级。2020年开启CUDA 11.0版本时代,至今已推出至CUDA 11.7版本,能够支持多种并行语言结构,且对CUDA平台内软件进行更新。1.3 GPU生态体系:以生态体系:以NVIDIA CUDA平台发展历程为例平台发展历程为例资料来源:NVIDIA官网,中信证券研究部NVIDIA CUDA平台发展历程平台发展历程20112012201420172018收购ICERA,推出“Project Denver”架构发布TegraK1 SHIELD平板电脑推出首个NVIDIA GRID 虚拟化GPU2015年8月:发布 CUDA 7.0 支持MAC,OS,X系统2017年6月:发布CUDA TOOLKIT 8.0.61支持Windows,Linux,and Mac OS系统2011年2月:发布CUDA Tool Kit 4.0版本,支持GPU Direct 2.0技术2012年7月:发布NVIDIA CUDA 5.0 for MAC2014年2月:发布 CUDA TOOLKIT V6.0支持 Windows,Linux,and Mac OS系统20152020发布Jetson TX1实现新一代自主机器推出NVIDIA Isaac助力机器训练NVIDIA Clara平台赋能智能医疗在高性能计算、自动驾驶等多领域深耕2018年3月:发布CUDA TOOLKIT 9.0版本2018年9月:开放CUDA Toolkit 10.0 Archive下载2020年:基于Ampere架构发布CUDA 11.0,支持 Windows,Linux,and Mac OS系统55ROCm概述:概述:全称为Radeon Open Computing platforM,是基于AMD GPU系列开源设计的计算生态,其目标是建立与NVIDIA CUDA生态可替代的平台,构建开放式软件平台,提供出色灵活性和卓越性能,让开源计算语言、编译器、库和工具助力高性能计算和人工智能社区代码开发。ROCm与与CUDA对比:对比:为实现对CUDA平台的可替代性,ROCm复制了CUDA的技术栈,涵盖HIP程序、库、Runtime、PTX、OS等。ROCm作为开源平台,提供开发标准支持,并且封装层次相较CUDA更优,对一般开发者不开放。1.3 GPU生态体系:以生态体系:以AMD ROCm平台为例平台为例资料来源:CSDNMoussaTintin,AMD官网,中信证券研究部ROCm平台与平台与CUDA平台模块对比平台模块对比CUDAROCm备注备注CUDAAPIHIPC 扩展语法NVCCHCC编译器CUDA函数库ROC库、HC库/ThrustParallel STLHCC 原生支持ProfilerROCm Profiler/CUDA-GDBROCm-GDB/DirectGPU RDMAROCn RDMApeer2peerTensorRTTensile张量计算库CUDA-DockerROCm-Docker/56ROCm优势:优势:1)扩大支持和访问范围。支持AMD Instinct MI210 和AMD Radeon Pro W6800的工作站GPU。2)性能优化。FP64矩阵操作能够更好地进行高速缓存处理,以及改善内核启动延迟和运行时间。3)助力开发者研发。提供、预包装的HPC和AI/ML框架,可随时在AMDInfinity Hub上下载。4)易于获取资源。在ROCm信息门户、AMD 社区支持下,能够远程读取AMD加速器云(AAC),用于开发、测试和基准测试。ROCm模块:模块:面向任意一种工作负载,ROCm堆栈都包括部署和管理工具、优化库以及编程和系统工具。其中,系统工具包括编译、调试、性能分析和系统管理等。1.3 GPU生态体系:以生态体系:以AMD ROCm平台为例平台为例资料来源:CSDNMoussaTintin,AMD官网,中信证券研究部ROCm平台模块介绍平台模块介绍模块模块描述描述部署和管理工具部署和管理工具简化了部署和运行HPC和ML代码的过程,包括验证套件以确保设备环境能够承载软件运行。ROCm Data Center Tool有助于收集作业遥测和统计信息。包括与第三方工具进行适配;同时能够监测如温度等环境因素,进一步支持AMD系统管理接口架构架构覆盖关键行业和应用,包括对HPC 和ML软件库库包括对数学函数、分布式计算的支持,以及容器和扩展通信。编程模型编程模型包括OpenMP、HIP和 OpenCL,以及帮助操作人员编译、运行、配置和调试软件的工具。ROCm支持C/C ,并提供可以自动将CUDA软件转换为HIP的转化工具,即可移植的异构计算接口,使其具有通用性。设备驱动设备驱动和运行时环境支持Red Hat Enterprise Linux、SUSE Linux Enterprise Server Distribution和Ubuntu Linux。ROCm的优势是,供应商能够很容易地为他们的加速器创建设备驱动程序,从而扩大了平台的使用范围和多样性。包括工作站和数据中心级的GPU加速器。GPU支持GPU支持包括范围广泛的AMD Radeon和Instinct 加速器,同时开放支持第三方GPU和 FPGA设备572.他山之石:他山之石:Nvidia/AMD竞争启示竞争启示架构创新升级和新兴领域架构创新升级和新兴领域前瞻探索前瞻探索是主旋律是主旋律I.NVIDIA、AMD(ATI)的产品迭代一览)的产品迭代一览II.GPU行业竞争史:行业竞争史:架构创新升级和新兴领域前瞻探索是领跑架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键行业的关键58总体而言总体而言,NVIDIA引领引领GPU行业发展数十年行业发展数十年,大多数时期技术和市场份额均领先;大多数时期技术和市场份额均领先;AMD(ATI)长期与保持长期与保持NVIDIA竞争竞争,N/A卡之争愈演愈烈卡之争愈演愈烈。NVIDIA市场份额虽有波动,但长期高于50%,与其产品性能优势和生态构建优势密不可分。2006年起,英伟达GPU架构保持约每两年更新一次的节奏。在这一节奏下,英伟达代际之间产品性能提升显著,生态构建完整,Geforce系列产品市占率长期超过Radeon镭龙系列,NVIDIA牢牢把握市场龙头地位。2019年后,AMD凭借RDNA架构再度崛起。2.1 总览:总览:NVIDIA经历风雨遥遥领先,经历风雨遥遥领先,AMD(ATI)再显峥嵘)再显峥嵘2002-2020年全球年全球GPU市场份额市场份额资料来源:JPR,快科技59自自1999年年NVIDIA提出提出GPU概念概念,GPU已经有已经有20余年发展历史余年发展历史1995年,3Dfx发布第一款消费级3D显卡,拉开图形处理芯片的发展序幕。1999年,NVIDIA提出GPU概念,奠定其GPU行业霸主地位,自此AMD、ATI、3Dfx等企业与NVIDIA合力推动GPU快速发展。NVIDIA率先构筑通用计算的率先构筑通用计算的CUDA生态生态,引领引领GPU的行业革命;的行业革命;AMD(ATI)CPU、GPU双线并行紧随其后双线并行紧随其后如今人工智能高速发展,几乎应用于各行各业,GPU是目前应用最广的AI芯片。NVIDIA把握游戏、数据中心市场机遇;AMD加速提升架构性能紧随其后。资料来源:各公司官网,中信证券研究部2.1 NVIDIA、AMD(ATI)等企业构筑)等企业构筑GPU发展主旋律发展主旋律NVIDIA、AMD发展历程发展历程1995200020052010201520201999:发布图形芯片Geforce 256,提出GPU的概念2000:被NVIDIA收购2017:发布Tesla V100 GPU,数据中心业务发力2004:ATI凭Radeon 9700崛起2006:被AMD收购1995:Voodoo是真正意义上第一款消费级3D显卡2004:ATI完成微软xbox主机订单2006:推出CUDA架构2007:发布Tesla计算卡(第一款计算卡)2006:收购ATI,开启CPU、GPU双路并行2017:挖矿热潮中获益,市场份额提高2019:发布RDNA架构2016:发布GeForce GTX 10802011:NVIDIA第10亿台GPU出货2013:推出GeForce GTX TITAN2022:推出Hopper微架构2020:推出RDNA2微架构,性能产生飞跃2013-2014:AMD面临财务危机,CGN架构沿用多年2022:RDNA3架构产品发布601999年至今年至今,NVIDIA GeForce 系列不断更新系列不断更新GeForce系列显卡经过二十多年的发展,产品已经涵盖不同价位、不同应用领域的低、中、高端图形显示和通用计算,是NVIDIA主力产品。最新产品代际下NVIDIA已经在2022年9月20日推出GeForce 40系列首款产品。资料来源:NVIDIA官网,中关村在线,CSDN凌凌1301,中信证券研究部2.1 NVIDIA:把握图形、数据中心历史机遇,驱动业绩快速增长:把握图形、数据中心历史机遇,驱动业绩快速增长NVIDIA GPU产品与工艺演进产品与工艺演进KelvinRankineCurieTelsa20012002200320042005200620072008核心微架构年份GeForce 2系列GeForce3 系列首款可编程GPUGeForce FX系列可编程图形硬件诞生SoC产品Tegra移动处理器GPU重要产品关键技术变化GeForce 7 系列GeForce4(NV25)全系列GeForce 6(NV40)全系列SLI技术允许多个GPU相连GeForce 8 系列GeForce 8800 GTX先支持统一渲染通用计算CUDA架构GeForce 9 系列Iray 渲染软件GeForce 9 系列SIMT执行模型第一款计算卡Tesla C870 2009GeForce 100 系列GeForce 200 系列150nm130 nm110nm90nm55nm优化架构工艺架构架构工艺、优化架构制程改进战略工艺制程架构2010201140nmGeForce 300 系列GeForce 400 系列笔记本电脑Optimus技术GeForce 400 系列首款双核移动SoC Tegra2工艺架构Fermi612006年年,NVIDIA推出推出CUDA,为为GPU通用计算奠定基础;目前其在数据中心领域业务占比已赶超游戏业务通用计算奠定基础;目前其在数据中心领域业务占比已赶超游戏业务NVIDIA数据中心业务自2017年开始快速扩张,先后发布V100、A100等高性能通用计算显卡,为全球提供顶尖的AI算力。短短4年时间,其数据中心业务占比已经从2017年的19%增长至2021年的45%,现已超过传统游戏业务占比。NVIDIA GPU产品与工艺演进产品与工艺演进4nm20152016201720182019202020212022年份工艺制程16nm12nm7nm/三星8nm GeForce 900 系列专为深度神经网络打造的GeforceGTX TITAN X发布GPU重要产品关键技术变化人工智能车辆计算平台NVIDIA DRIVEPX 2发布GV100,加入Tensor CoreGeForce 20 系列光线追踪技术突破GeForce 16 系列GeForce 30 系列A100显卡兼容IEEE 的 FP64 Tensor CoreDLSS 2技术GeForce 30 系列NVIDIA Omniverse优化架构&工艺工艺优化架构工艺架构-改进战略2012201328nmGeForce 600 系列第一个虚拟化GPU GRID工艺优化2014PascalAmpere核心微架构VoltaTuringHopperKeplerMaxwell架构GeForce 700 系列高性能GeforceGTX TITANGeForce 700 系列嵌入式AI平台Jetson资料来源:NVIDIA官网,中关村在线,CSDN凌凌1301,中信证券研究部Ada lovelace2.1 NVIDIA:把握图形、数据中心历史机遇,驱动业绩快速增长:把握图形、数据中心历史机遇,驱动业绩快速增长62AMD显卡发展可大致划分为两阶段:第一阶段显卡发展可大致划分为两阶段:第一阶段ATI时代从时代从1985年至年至2006年年,第二阶段从第二阶段从2006年至今为年至今为AMD时代时代Radeon系列持续迭代更新系列持续迭代更新自早期开始,AMD分为两路研发,兼顾高端显卡市场和低端显卡市场,其中,高端产品如Radeon 8500、Radeon X1800 XT等;从高端显卡中衍生出多款低端显卡产品,包括Radeon 9000、9000 Pro、9100、9200以及9250。资料来源:超能网鲲鹏,中信证券研究部2.1 AMD:ATI时代开端奠定市场基础时代开端奠定市场基础AMD GPU产品与工艺演进产品与工艺演进R100RV250RV350RV52020002001200220032004200520062007核心代号年份Radeon256ATI显卡开端Radeon 7200 DDR首款完全支持DX 8.1的显卡:Radeon 8500Radeon9000GPU重要产品关键技术变化Radeon 9500&Radeon X800高端显卡Radeon 7200低显卡的Radeon 7000Radeon 9800全面开启CrossFire的一代:Radeon X1800 XTRadeon HD 2900 XTRadeon HD 3870 X2AMD收购ATIRadeon X 1950 Pro2008Radeon HD 4870180nm150 nm90nm55nm优化优化优化、制程优化优化、制程制程、优化制程、优化改进战略工艺制程优化110 nm80nm制程、优化2009201040nm最后一代ATI标志的显卡:Radeon HD 5870AMD首款显卡Radeon HD 6970制程架构TeraScale3RV100R300RV515RV670RV770RV870632012年以来年以来,AMD在架构上保持创新态势在架构上保持创新态势,制程引领行业先进性制程引领行业先进性2012年发布Radeon HD系列,AMD在架构上实现创新,推出GCN架构,并且是业界第一款采用28纳米工艺制程的GPU图形芯片。在图形渲染和通用计算领域性能均领先市场内竞争对手。2019年,AMD推出RDNA架构,同时兼容原有GCN架构,在性能、功耗、能效等多方面实现超越,正式开启第五代架构革新之路。2.1 AMD:AMD时代再续辉煌,架构、制程多点突破时代再续辉煌,架构、制程多点突破AMD GPU产品与工艺演进产品与工艺演进5nm20152016201720182019202020212022年份工艺制程14nm7nm首次使用HBM显存Radeon R9 Fury XGPU重要产品关键技术变化Radeon RX 480Radeon RX Vega 系列Radeon RX 500 系列Radeon Vega 系列第二代Threadripper处理器Radeon VIIRX 5000系列RadeonRX 5500系列Radeon RX 6800系列Radeon RX 6000Radeon RX 6600Radeon RX 6000M 系列优化制程、架构优化制程、优化架构架构、优化制程制程、架构改进战略2012201328nmRadeon HD 7970制程、架构架构、优化2014RDNA2核心微架构VEGA架构RDNA1RDNA3GCN架构架构、优化Radeon R9 290XRadeon R9-295X2 GCN2.0HawaiiPolaris架构Radeon RX 7000系列6nm资料来源:超能网鲲鹏、PC物语,中信证券研究部641962年起年起,计算机图形学不断发展计算机图形学不断发展,图形处理技术实现从图形处理技术实现从2D到到3D的突破的突破1962年麻省理工学院博士伊凡苏泽兰奠定了计算机图形学基础;1984年,SGI公司推出了面向专业领域的高端图形工作站,俗称图形加速器,是首个专门的图形处理硬件。1994年,3D Labs发布GLINT 300SX,是PC最早的3D硬件加速图形芯片,从此开启3D显卡时代。1995年年,3Dfx发布发布Voodoo图形芯片组配图形芯片组配和和Glide API接口接口,一度统治市场一度统治市场Glide是3Dfx为Voodoo打造的底层3D API,是第一个在PC游戏领域得到大范围使用的程序接口,使得Voodoo无须硬件厂商额外提供API就可以直接开发游戏,具有易用性和稳定性。NVIDIA同期的riva 128性能与其有差距。当时的顶级游戏和部分PC游戏基本都支持Glide。因此即使Voodoo的价格远远高于市场上其他产品,也深受消费者追捧。图形处理发展史图形处理发展史2.2 1962-1995年:图形处理技术不断发展,年:图形处理技术不断发展,3Dfx凭凭Voodoo一枝独秀一枝独秀Voodoo系列显卡系列显卡资料来源:太平洋电脑网资料来源:百家号爱集微APP,中信证券研究部SGI公司推出首个专门的图形处理硬件IBM发布第一台VGA(视频图形阵列),图形处理进入2D时代1994年,3D Labs发布GLINT 300SX,开启3D显卡时代3dfx公司发布图形加速卡Voodoo,是真正意义第一款消费级3D显卡麻省理工学院博士伊凡苏泽兰奠定了计算机图形学基础19621984198719941995653Dfx Voodoo系列后续产品被系列后续产品被NVIDIA反超反超,开始由盛转衰开始由盛转衰1996年,3Dfx凭借Voodoo成为全球3D显卡和GPU制造领域的垄断者。1997年,NVIDIA推出的NV 3(RIVA 128)有128bit的2D、3D加速图形核心,采用0.35微米工艺,支持微软Direct 3D接口,且性价比高于Voodoo,被OEM厂商广泛使用。1998-1999年,NVIDIA推出NV4性能击败Voodoo3,随后3Dfx的Voodoo4延迟发布、Voodoo5由于能耗大、散热高败给NVIDIA。1999年年8月月,NVIDIA公司发布图形芯片公司发布图形芯片Geforce 256,首次提出首次提出GPU的概念的概念Geforce 256采用技术包括硬件变换、“T&L”、立方环境材质贴图和顶点混合、凹凸映射贴图、双重纹理四像素256位渲染引擎、纹理压缩等,兼容Direct X和Open GL,被称为世界上第一款GPU。此前如顶点变换必须在CPU中完成,光栅化后像素有限等,而GPU将这些功能独立出来,使显示核心与CPU并列成为计算机核心,大大减少CPU的运算压力。资料来源:搜狐微型计算机杂志Nvidia Geforce 2562.2 1996-2000年:年:Nvidia依靠性能优势击败依靠性能优势击败3Dfx,3Dfx盛极而衰盛极而衰3Dfx性能落后性能落后Nvidia资料来源:百家号南京1号电脑超市661999年年,NVIDIA崛起崛起,击败并收购难以为继的击败并收购难以为继的3Dfx1999年,NVIDIA的Geforce 256奠定了NVIDIA在GPU市场的领先地位。与此同时的3DFX由于一系列决策失误,由盛转衰。2000年12月15日,Nvidia低价收购3Dfx图形处理相关所有产业。3Dfx的失败可以归因于战略和产品策略问题的失败可以归因于战略和产品策略问题战略失误:芯片厂商涉足板卡制造领域面临困难。3Dfx收购板卡制造商STB,希望独自生产Voodoo显卡,但二者的合作并没有表现出1 12的效果,反而拖慢新品发布进度,令3Dfx丢掉不少市场份额。同时失去原有板卡厂商合作伙伴,DIAMOND、GIGABYTE、CREATIVE、ELSA都加入NVIDIA阵营。产品策略问题:Voodoo3与Voodoo2相比性能进步很小,只是换了马甲;Voodoo4和Voodoo5不支持硬件转换和TV输出功能,失去了DVD和家庭影院市场;Voodoo4和Voodoo5不支持DDR内存,而自身适配的SDRAM在性价比上输给NVIDIA的DDR内存,再次流失市场份额。资料来源:百家号南京1号电脑超市Voodoo2与与Voodoo3对比对比2.2 1996-2000年:年:Nvidia依靠性能优势击败依靠性能优势击败3Dfx,3Dfx盛极而衰盛极而衰3Dfx与与NVIDIA阵营阵营资料来源:搜狐南京一号电脑超市672000年显卡市场格局洗牌年显卡市场格局洗牌,ATI凭凭Radeon 9700强势崛起强势崛起2000年,ATI发布Radeon 256,180nm工艺,内有3000万颗晶体管,具备在当时属于先进技术的几何变形、图像剪切功能、光照效果,性能优于Nvidia同代的Geforce 256。自此,PC端独立显卡市场形成Radeon系列与Geforce系列对峙的局面。2002年,ATI发布R 300(即Radeon 9700)支持DirectX9.0、4顶点着色器、8像素流水线、256位DDR内存总线;2003年发布Radeon9800pro,性能均超过Nvidia的Geforce FX5900。ATI逐步站稳脚跟。随后NVIDIA的Geforce FX6800又在性能反超Radeon 9800。在此之后,ATI真正与Nvidia在GPU市场平分秋色,二者产品性能相互追赶。NVIDIA遇强力对手遇强力对手,市场份额跌破市场份额跌破50%;ATI获微软获微软XBOX 2主机图形芯片订单主机图形芯片订单在ATI Radeon 9700和XBOX 2 订单的帮助下,ATI市场份额最高达到55%,而NVIDIA市场份额跌破50%,为NVIDIA迄今为止最低点。微软和Nvidia共同研发微软第一代XBOX的图形处理器芯片,而2003年ATI获得第二代XBOX的图形处理器订单,股价因此由上涨1美元到13.2美元,并在2004年顺利完成该订单显卡的开发工作,市场份额有所上涨。资料来源:IIS7站长之家钱纲ATI R300架构架构2.2 2000-2004年:年:ATI凭借凭借Radeon系列与系列与NVIDIA分庭抗礼分庭抗礼Geforce FX6800性能反超性能反超Radeon 9800资料来源:中关村在线68NVIDIA稳定推新稳定推新,ATI并未在后续产品上坚守住阵地并未在后续产品上坚守住阵地,同时净利润开始下滑同时净利润开始下滑ATI后面推出的X300、X550、X600、X700、X1600性能落后于同期英伟达产品,竞争处于下风。2005年,ATI、NVIDIA交替发布新产品,ATI年收入达到22亿美元,但净利润仅不到5000万美元,同期NVIDIA营业收入约23亿美元,净利润超3亿美元。2006年年,AMD以以54亿美元收购亿美元收购ATI2006年,AMD为弥补独立芯片组的欠缺,以54亿美元收购ATI。AMD也因此背负巨额外债。2.2 2004-2006年:年:ATI被被AMD收购,收购,NVIDIA重回领先位置重回领先位置2005年年NVIDIA、ATI收入利润对比收入利润对比资料来源:新浪网,中信证券研究部23.7223.020.4100.511.522.533.52121.52222.52323.524NVIDIAATI营业收入(亿美元)净利润(亿美元)69自自2006年起年起,英伟达英伟达GPU架构保持约每两年更新一次的节奏架构保持约每两年更新一次的节奏,代际之间产品性能提升显著代际之间产品性能提升显著,性能和市场份额均领先性能和市场份额均领先AMD。2006年年,英伟达推出了英伟达推出了CUDA编程软件编程软件,使使GPU成为通用并行数据处理加速器成为通用并行数据处理加速器,并逐步构筑起并逐步构筑起CUDA生态生态。CUDA让显卡可以用于通用并行计算和其他非图形计算,使得GPU能够承担和CPU一样的计算任务。程序员可以通过CUDA直接对GPU进行编程。为NVIDIA的数据中心业务高速扩张打下基础。CUDA包括硬件平台和软件栈(软件集合)两层含义,加上第三方应用及工具的扩展,形成从开发到应用的CUDA生态。CUDA生态也成为NVIDIA的生态护城河。2.2 2006-2012年:年:Nvidia架构快速更新迭代,开创通用计算生态先河架构快速更新迭代,开创通用计算生态先河CUDA生态生态资料来源:CSDN普通网友,中信证券研究部Languagesand APIsLibrariesDatacenter tools and cluster managementProfiling and debugging toolsGPU-accelerated applicationsGPUs everywhereCUDAecosystem702007年年,英伟达发布英伟达发布Tesla计算卡计算卡,标志用于计算的标志用于计算的GPU产品线正式独立;产品线正式独立;Tesla架构是第一代真正用于并行运算的GPU架构,今天的并行计算架构中仍有很多该架构硬件设计的影子。随后NVIDIA的通用计算架构仍保持大约两年一代的进度进行升级迭代,2010年发布Fermi架构,2012年发布Kepler架构。这一行为标志着GPU在通用计算和超级计算领域开始逐渐取代CPU成为主角。资料来源:搜狐电脑爱好者Nvidia通用计算架构迭代通用计算架构迭代2.2 2006-2012年:年:Nvidia架构快速更新迭代,开创通用计算生态先河架构快速更新迭代,开创通用计算生态先河712013-2014年年,AMD(ATI)产品研发进展缓慢产品研发进展缓慢,NVIDIA性能持续领先性能持续领先2013年,AMD GPU仍然沿用GCN架构,使得R9 290X功耗高于对手。并且AMD在新产品推出上后继乏力。2015年,AMD推出的Fury X功耗比优于NVIDIA kepler系列,但架构仍未升级;同时Fury 2X的延迟发布使得大众对AMD的信心下降。2014年,NVIDIA推出Maxwell架构,使得GeForce GTX在性能、图形和效率方面取得突破性进展,NVIDIA持续掌握GPU市场的主动权。2014-2016年年,NVIDIA GeForce GTX 1080带来市场的全面领先带来市场的全面领先,AMD(ATI)仍在苦苦支撑仍在苦苦支撑。2016年5月,英伟达推出了采用16纳米FinFET制程的Pascal架构,核心频率与上代相比显著提升,超频突破2GHz。GeForce GTX 1080采用Pascal架构。不到一年以后又推出GeForce GTX 1080Ti,虽然架构没有改变,但拥有3584个流处理器、224个纹理单元,游戏性能与1080相比提升约35%。至此,NVIDIA完成了10系显卡从入门款到旗舰款的全型号覆盖。2015年,AMD推出的Fury X功耗比优于NVIDIAkepler系列,但架构仍未升级;同时Fury 2X的延迟发布使得大众对AMD的信心下降。资料来源:爱搞机网站GeForce GTX 1080性能参数对比性能参数对比2.2 2013-2019年:年:Nvidia性能遥遥领先,数据中心业务快速增长性能遥遥领先,数据中心业务快速增长NVIDIA、AMD研发投入对比研发投入对比资料来源:智能电视网722016-2019年年,NVIDIA性能始终保持领先并不断拓展业务边界性能始终保持领先并不断拓展业务边界,数据中心业务开始发力数据中心业务开始发力NVIDIA押注AI芯片,2017年发布专为数据中心和高性能计算打造的Tesla V100 GPU,采用Volta架构,有超过210亿个晶体管,是上代Tesla P100的1.37倍。数据中心业务自此开始快速增长,随后成为拉动NVIDIA营收增长的重要力量。2017年挖矿热潮中年挖矿热潮中,由于由于A卡浮点性能更好卡浮点性能更好,AMD市场份额有所提升市场份额有所提升在2017年左右兴起的挖矿热潮中,AMD显卡由于浮点性能更好而更受青睐。2015年末、2016年末、2017年末,AMD在GPU领域的市场份额逐年回升,分别为21%、29%、34%。2018年虚拟货币价格暴跌,比特币全年跌幅超过70%,二手市场充斥大量低价显卡,GPU的出货量受到一定影响。资料来源:3D Center,中信证券研究部AMD 2016-2019年年GPU市场份额市场份额NVIDIA 2017-2021年英伟达全球营收(百万美元)年英伟达全球营收(百万美元)资料来源:Statista,中信证券研究部15 %0560551362465518775983593493412121053830193219322983669648755855870053669877777750563102000400060008000100001200014000160001800020172018201920202021游戏专业解决方案数据中心汽车OEM 和其他2.2 2013-2019年:年:Nvidia性能遥遥领先,数据中心业务快速增长性能遥遥领先,数据中心业务快速增长732019年发布年发布RDNA架构产品架构产品Radeon RX 5700再显峥嵘再显峥嵘AMD产品开始在性能方面追赶NVIDIA。Radeon RX 5700系列采用Radeon DNA架构,即RDNA架构,其完全兼容GCN架构的指令。Radeon RX 5700还采用7nm工艺、GDDR6显存、PCI-e 4.0总线,使得其性能跑分超过NVIDIA的GeForce GTX 1080。2020年发布的RDNA 2架构又实现性能提升1倍、能效提升至少50%、完整支持DX12U和光线追踪等目标。RDNA 3架构于已于2022年11月推出。NVIDIA、AMD两大巨头瓜分两大巨头瓜分GPU市场市场,NVIDIA仍保持明显优势仍保持明显优势NVIDIA成功拓展AI业务,股价自2015年以来增长超过40倍,AMD一直与其竞争,但短期很难战胜NVIDIA。3D Center数据显示,2022Q2 NVIDIA在独立GPU的市场份额为79%,AMD则占20%的市场份额,合计99%。Intel凭借在PC端的优势占据剩下1%的市场份额。资料来源:机锋网AMD、NVIDIA十年产品性能比较十年产品性能比较2.2 2019年至今:年至今:AMD借助借助RDNA架构再度崛起,架构再度崛起,NVIDIA、AMD瓜分瓜分GPU市场市场RDNA 2架构升级架构升级资料来源:超能网2022Q2独立独立GPU市场份额市场份额79 %1%NVIDIAAMDintel资料来源:3D Center,中信证券研究部74架构创新升级和新兴领域前瞻探索是领跑架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键行业的关键NVIDIA坚持每两到三年完成一次架构迭代,持续保持领先的图显和计算性能:2001年发布Kelvin,2003年发布Rankine,2004年发布Curie,2006年发布Tesla,2009年发布Fermi,2012年发布Kepler,2014年发布Maxwell,2016年发布Pascal,2017年发布Volta,2018年发布Turing,2020年Ampere,2022年先后发布Hopper和Ada lovelace。架构创新迭代高效,架构之间性能提升显著。而AMD(ATI)也曾凭借Radeon 9700、Radeon 9800强势崛起,近些年的RDNA架构也令其市场份额快速提高。NVIDIA前瞻性布局新兴领域数据中心、自动驾驶等领域,推动业绩爆发增长。其自2006年开始构筑CUDA生态并推出Tesla通用计算GPU架构,从以硬件为核心的企业变成以软硬件平台为核心的科技公司,前瞻性的布局使其在计算生态上构筑了极深的壁垒,占据了绝大部分市场。近年公司开始布局元宇宙等领域,持续探索新兴领域以保持GPU行业的龙头地位。2014-2021年年GPU市场份额市场份额2.2 小结:架构创新升级和新兴领域前瞻探索是领跑小结:架构创新升级和新兴领域前瞻探索是领跑GPU行业的关键行业的关键0 0Pp%NVIDIAAMD资料来源:超能网,中信证券研究部75近期近期,NVIDIA公布了公布了GeForce系列新品系列新品GeForce RTX 4090,RTX 4080和和RTX 40702022年9月20日秋季GTC大会上发布的NVIDIA GeForce RTX40系列代表了目前显卡的性能巅峰,RTX 40系列采用全新的Ada Lovelace架构,台积电5nm级别工艺,拥有760亿晶体管和18000个CUDA核心,与Ampere相比架构核心数量增加约70%,能耗比提升近两倍,可驱动DLSS 3.0技术。性能远超上代产品。Ada Lovelace架构对于RT Core、Tensor Core和SM单元都进行了升级,NVIDIA在SM多单元处理器中引入着色器执行重排序技术,使GPU也拥有CPU的乱序处理能力。2.2 未来竞争:未来竞争:NVIDIA新品性能提升飞跃,新品性能提升飞跃,N卡地位难以动摇卡地位难以动摇NVIDIA RTX 40系列显卡参数系列显卡参数资料来源:泡泡网,中信证券研究部NVIDIAAda Lovelace架构性能提升架构性能提升资料来源:NVIDIA 2022.9.20 GTC大会显卡显卡RTX4090RTX4080 16GBRTX4080 12GB核心构架Ada Lovelace(艾达.洛夫莱斯)Ada Lovelace(艾达.洛夫莱斯)Ada Lovelace(艾达.洛夫莱斯)核心代号AD102-300AD103-300AD104-400核心工艺台积电5nm台积电5nm台积电5nmCUDA核心数量1638497287680Tensor Core第四代第四代第四代RT Core第三代第三代第三代GPU频率2230 MHz2210MHz2310MHzBoost频率2520 MHz2505MHz2610MHz显存位宽384bit256bit192bit显存类型GDDR6XGDDR6XGDDR6X显存容量24GB16GB12GB宽带1008GB/s720GB/s504GB/sTGP450W340W285WPCle版本444DLSS版本333首发价格1599美元(12999RMB)1199美元(9199RMB)899美元(7199RMB)76NVIDIA各主要业务线持续发力各主要业务线持续发力,以技术创新技术保持行业领先以技术创新技术保持行业领先,开启元宇宙布局开启元宇宙布局游戏:NVIDIA新发布Ada Lovelace架构的4000系列GPU有极强的光追性能,比前代提高1-3倍,性能显著领先AMD,但成本也显著提高。汽车:在2022 GTC大会上发布的NVIDIA DRIVE Thor SoC系统,算力达到2000TOPS,公司计划在2025年装车。Thor可以将智能汽车的所有功能集成在单个AI计算器上,将显著降低成本,对智能座舱领域将是颠覆性影响。元宇宙:Omniverse是为元宇宙打造的软硬件方案,彰显其在元宇宙领域提前布局的野心。使用者可以在Omniverse中创建虚拟世界,而他们所创建的虚拟物体也会成为NVIDIA元宇宙生态的重要组成部分。与NVIDIA的GPU、CPU等硬件基础一起,共同构成NVIDIA元宇宙的一站式云服务体系。云端芯片市场格局未定云端芯片市场格局未定,NVIDIA实行实行“GPU CPU DPU”路线路线,布局云端异构布局云端异构AI芯片芯片2021年的GTC大会NVIDIA推出面向数据中心AI和高性能计算的自研的采用ArmNeoverse架构的Grace芯片。并取得ARM授权协议,可开发ARM架构CPU芯片。2019年,NVIDIA以70亿美元收购Mellanox,2020年推出BlueField-2 DPU,成功布局DPU业务。NVIDIA异构芯片路线异构芯片路线2.2 未来竞争:未来竞争:NVIDIA维持游戏和数据中心领先地位,同时瞄准元宇维持游戏和数据中心领先地位,同时瞄准元宇宙、智能汽车市场宙、智能汽车市场Omniverse链接的部分软件链接的部分软件资料来源:NVIDIA官网GPUCPUDPU自研资料来源:NVIDIA官网,百度百科ARM,Mellanox官网,中信证券研究部绘制77AMD GPU架构稳定升级架构稳定升级,不断挑战不断挑战NVIDIA显卡卡皇地位显卡卡皇地位RDNA架构迭代路径清晰,代际之前性能提高显著,即将发布的RDNA 3架构相比RDNA 2每瓦性能提高超过50%。预计2024年前RDNA4 架构可正式发布。AMD在2022年11月4日发布搭载RDNA 3的下代显卡Radeon RX 7000 系列,其采用5纳米制程和小芯片封装工艺,新一代“无限缓存”。据称,旗舰RX 7950 XT显卡有15360个核心,频率达2.5GHz,512MB 3D缓存,搭配256bit GDDR6显存,支持PCI-E 5.0接口。预计2024年发布Navi 4x系列,采用RDNA 4架构,也将使用更先进的制程工艺。2.2 未来竞争:未来竞争:AMD加快加快RDNA系列架构迭代和性能提升系列架构迭代和性能提升资料来源:中关村在线资料来源:AMD官网AMD RDNA架构迭代架构迭代AMD 下一代下一代GPU渲染图渲染图782022年年6月月19日日,AMD讲述其未来发展战略讲述其未来发展战略,概述为技术和产品组合更新概述为技术和产品组合更新、扩大数据中心解决方案产品组合扩大数据中心解决方案产品组合、加速打造加速打造无所不在的无所不在的 AI 领域领导地位领域领导地位、扩大扩大PC领先领先、推动图形解决方案发展势头推动图形解决方案发展势头。AMD结合结合CPU优势优势,GPU、FPGA、APU业务多点布局抢占业务多点布局抢占AI芯片行业先机芯片行业先机AMD希望未来将更多AI功能引入CPU的硬件层面中,如AVX-512 VNNI指令集。AMD认为,在CPU中运行大部分推理很重要并会是未来趋势。AMD预计明年发布全球第一个数据中心APUInstinct MI300(此前该系列为GPU加速卡),面向训练领域,结合使用Zen 4架构的CPU和CDNA 3架构的GPU。APU是将处理器和独显集成到一个晶片上,实现GPU和CPU的融合。AMD收购Xilinx(赛灵思)以更好地开展FPGA业务,补全FPGA领域的短板,扩大自身AI芯片市场。2.2 未来竞争:未来竞争:AMD结合自身结合自身CPU优势全方位布局优势全方位布局AI芯片芯片资料来源:快科技,中信证券研究部AMD Instinct系列加速卡系列加速卡VideoCardzAMD Radeon Instinct M160AMD Instinct MI100AMD Instinct MI250XAMD Instinct MI300Architecture&Nodes7nm GCN5(GFX906)7nm CDNA1(GFX908)6nm CDNA2(GFX90A)5nm CDNA3(GFX940) 6nm(base)CPU-Zen4(APU Mode)GPUVega 20ArcturusAldebaran(MCM)?(3D Die Stacking)Base Chiplets-up to 2Compute Tiles112up to 8Compute Units64120220TBCGPU Clock Speed1800 MHz-1500 MHz-1700 MHzTBCFP16 Compute29.5 TFLOPS185 TFLOPS383 TFLOPSTBCFP32 Compute14.7 TFLOPS23.1 TFLOPS47.9 TFLOPSTBCFP64 Compute7.4 TFLOPS11.5 TFLOPS47.9 TFLOPSTBCVRAM32 GB HBM232GB HBM2128 GB 8x HBM2eup to 8x HBM3 stackMemory Clock2.0 Gbps2.4 Gbps3.2 GbpsTBCMemory Bus4096-bit4096-bit8192-bitup to 8192-bitMemory Bandwidth1 TB/s1.23 TB/s3.2 TB/sTBCForm FactorDual Slot.Full LengthDual Slot.Full LengthOAMOAMTDP300W300W560Wup to 600W 793.国内市场:国内市场:GPU细分市场前景广阔,国内厂商大有可为细分市场前景广阔,国内厂商大有可为I.市场概览:国内外市场概览:国内外GPU市场规模庞大,市场规模庞大,AI&数据中心、汽车、游戏可重点关注数据中心、汽车、游戏可重点关注II.AI&数据中心:数据量级和算力需求的提升拉动数据中心业务与国家超算需求数据中心:数据量级和算力需求的提升拉动数据中心业务与国家超算需求高增高增III.汽车:汽车智能化浪潮下汽车汽车:汽车智能化浪潮下汽车GPU市场前景广阔市场前景广阔IV.游戏:游戏玩家人数持续增长,释放游戏游戏:游戏玩家人数持续增长,释放游戏GPU市场需求市场需求80254.1337.5448.3595.4790.81050.313951853.12465.105001000150020002500300020202021E2022E2023E2024E2025E2026E2027E2028E市场规模(亿美元)2020年-2028年全球GPU市场规模2022年全球年全球GPU市场规模达到市场规模达到448.3亿美元亿美元,国内外市场空间正高速增长国内外市场空间正高速增长,年复合增长率达到年复合增长率达到32.8%Verified Market Research 数据显示,2020年,全球GPU市场规模为254.1亿美元,且该机构预计2028年市场规模将达到2465.1亿美元,对应年复合增长率达32.8%。国际独立国际独立GPU市场由市场由Nvidia、AMD八二分成八二分成,国内市场中国企业体量快速增长国内市场中国企业体量快速增长国际市场上,英伟达、AMD瓜分市场,Jon Peddie Research数据显示2022Q1英伟达占据79%市场份额,AMD占据21%。英伟达在独立GPU领域一枝独秀,AMD在集成GPU领域可与英伟达竞争。根据各公司财报,国内GPU龙头企业景嘉微2022年上半年营业收入5.44亿人民币,2021年营业收入10.93亿人民币;2022年上半年海光信息营业收入为25.3亿元,而英伟达2022Q2营收为67亿美元,2021年NVIDIA中国区的营收约为71亿美元。相比之下,国产厂商相对规模暂时较小,未来成长空间广阔。资料来源:芯智讯,Jon Peddie Research,中信证券研究部2021Q2-2022Q2全球独立全球独立GPU市场份额市场份额3.1 GPU市场空间广阔,国内企业规模逐步起量市场空间广阔,国内企业规模逐步起量2020-2028年全球年全球GPU市场规模市场规模资料来源:Verified Market Research(含预测),半导体行业观察,中信证券研究部81GPU应用场景不断扩大拉动应用场景不断扩大拉动GPU市场空间迅猛增长市场空间迅猛增长,根据根据Verified Market Research预测预测,2027年中国年中国GPU市场规模将市场规模将会增长至会增长至345.57亿美元亿美元。GPU市场主要应用场景可概括为:市场主要应用场景可概括为:AI&数据中心数据中心、智能汽车智能汽车、游戏游戏。AI&数据中心:新一轮AI对算力需求远超以往:ChatGPT类语言大模型底层是2017年出现的Transformer架构,该架构相比传统的CNN/RNN为基础的AI模型,参数量达到数千亿,对算力消耗巨大,对算力硬件有大量需求。随着对商业数据和大数据处理要求算力的不断提高,GPU的通用计算能力正在越来越广泛地被应用与数据中心和国家超算中心的建设。智能汽车:智能汽车方兴未艾,自动驾驶和智慧座舱是智能汽车发展的主要方向,均需大量使用GPU。游戏:游戏业务是GPU应用的传统领域,对游戏画面进行3D渲染,英伟达的游戏业务稳中有进。3.1 国内市场:国内市场:GPU应用市场可划分为应用市场可划分为AI&数据中心、智能汽车、游戏数据中心、智能汽车、游戏资料来源:前瞻产业研究院(含预测),公司招股说明书,中信证券研究部2019-2024年中国人工智能芯片市场规模及预测年中国人工智能芯片市场规模及预测010020030040050060070080090020192020E2021E2022E2023E2024E中国人工智能芯片市场规模(亿元)82ChatGPT 模型引发市场关注模型引发市场关注,对话类对话类AI效果超大众预期效果超大众预期,大模型需要更大的算力大模型需要更大的算力。2022年11月人工智能实验室 OpenAI 推出了一款AI对话系统ChatGPT,ChatGPT模型从 GPT-3.5 系列中的一个模型微调而成,并在Azure AI 超级计算基础设施上进行训练,能够进行有逻辑的对话、撰写代码、撰写剧本、纠正错误、拒绝不正当的请求等,效果超越大众预期。这标志着对话类人工智能可以在大范围、细节问题上给出较合理准确的答案,并根据上下文形成一定像人类一样有逻辑且有创造力的回答。ChatGPT的优化主要来自模型的增大,以及因此带来的算力增加。GPT、GPT-2和GPT-3(当前开放的版本为GPT-3.5)的参数量从1.17亿增加到1750亿,预训练数据量从5GB增加到45TB,其中GPT-3训练单次的成本就高达460万美元。3.2 AI:ChatGPT等等AI大模型加速对大算力的需求大模型加速对大算力的需求资料来源:iNFTnewsXiaoz资料来源:ChatGPT官网ChatGPT界面界面大模型算力大模型算力83依据部署位置划分依据部署位置划分,AI芯片可以细分为终端芯片和云端芯片芯片可以细分为终端芯片和云端芯片,云端芯片市场空间越为终端芯片的云端芯片市场空间越为终端芯片的2-3倍倍云端芯片:云端芯片应用于云端服务器,可以进一步细分为推理芯片和训练芯片。根据甲子光年数据,2018年中国云端芯片市场约46.1亿元,该机构预计2023年增长至384.6亿元。终端芯片:应用于嵌入式、移动终端、智能制造、智能家居等领域的AI芯片,终端芯片需要低功耗和更高的能效比,但是对算力的需求也相对较低,主要应用与AI推理。根据甲子光年数据,2018年中国终端芯片市场约15亿元,该机构预计2023年增长至173亿元。AI芯片总市场芯片总市场232亿元亿元,其中云端芯片市场空间更大其中云端芯片市场空间更大,预计终端芯片将随着预计终端芯片将随着AI在多行业落地将进一步放量在多行业落地将进一步放量甲子光年预测,中国AI芯片市场规模将从2021年232亿元增长至2023年的500亿元左右,对应中国云端芯片市场的复合增长率为52.8%;终端芯片市场规模相对较小,但由于人工智能在汽车、安防、智能家居等行业渗透,届时市场规模增长率达到62.2%。资料来源:甲子光年(含预测),中信证券研究部3.2 AI:数据中心和终端场景不断落地对计算芯片提出更多更高需求:数据中心和终端场景不断落地对计算芯片提出更多更高需求中国云端中国云端AI芯片市场规模(亿元)芯片市场规模(亿元)中国终端中国终端AI芯片市场规模(亿元)芯片市场规模(亿元)资料来源:甲子光年(含预测),中信证券研究部46.171.9111.7169.5255.9384.60501001502002503003504004502018201920202021E2022E2023E152539631051730204060801001201401601802002018201920202021E2022E2023E84汽车智能化浪潮下汽车智能化浪潮下,自动驾驶和智能座舱是最具有发展前景的两个方向自动驾驶和智能座舱是最具有发展前景的两个方向,GPU应用于二者的域控制器应用于二者的域控制器GPU两大功能助力自动驾驶两大功能助力自动驾驶智能汽车主流的域控制器采用SoC与MCU结合的方案,SoC(片上系统)由GPU、CPU、AI引擎、DPU等组成。GPU在自动驾驶中的作用表现在图形处理和并行计算,ADAS 平台可以利用 GPU 的并行计算能力实时分析来自激光雷达、雷达和红外摄像头的传感器数据。盖世汽车预计到盖世汽车预计到2025年中国自动驾驶域控制器出货量达到年中国自动驾驶域控制器出货量达到432万万台台自动驾驶域控制器与SoC之比在1:1到1:4之间,市场份额较高的SoC通常搭载一片GPU。资料来源:盖世汽车(含预测),中信证券研究部3.2 汽车智能化浪潮下汽车汽车智能化浪潮下汽车GPU市场前景广阔市场前景广阔自动驾驶自动驾驶中国自动驾驶域控制器出货量中国自动驾驶域控制器出货量智能汽车主要产品使用智能汽车主要产品使用SoC资料来源:芯八哥微信公众号,中信证券研究部车型车型智能域控智能域控SoCAI算力算力(TOPS)域控制器供应商域控制器供应商车型上市时间车型上市时间特斯拉Model32颗FSD144自研已量产小鹏P5/P71颗Xavier30德赛西威已量产小鹏G92颗Orin X508-预计2022年第三季度理想L92颗Orin X508德赛西威2022年6月蔚来ET74颗Orin X1016自研已量产威马M74颗Orin X1016-预计2022年下半年上汽智己L72颗-4颗Orin X5001000 创时智驾2022年4月上汽非凡R72颗-4颗OrinX5001000 德赛西威预计2022年下半年哪吒S1颗昇腾610200华为预计2022年底长安阿维塔112颗昇腾610400华为2022年8月05010015020025030035040045050020202021E2022E2023E2024E2025E域控制器出货量(万套)85GPU虚拟化技术助力智能座舱一芯多屏化发展虚拟化技术助力智能座舱一芯多屏化发展智能座舱芯片主要为SoC(片上系统),SoC由GPU、CPU、AI引擎、DPU等组成。智能座舱向着一芯多屏的形态发展,这对芯片并行计算的要求不断提高,GPU硬件虚拟化技术在智能座舱中有着无可替代的优势。在智能座舱屏幕、仪表盘、车载与各系统中均需要使用GPU。盖世汽车预计盖世汽车预计2025年中国智能座舱域控制器出货量达到年中国智能座舱域控制器出货量达到528万万台台智能座舱一台域控制器内置一个SoC,位于汽车的中央显示屏内,一个SoC通常搭载一片GPU。资料来源:盖世汽车(含预测),中信证券研究部3.3 汽车智能化浪潮下汽车汽车智能化浪潮下汽车GPU市场前景广阔市场前景广阔智能座舱智能座舱中国智能座舱域控制器出货量中国智能座舱域控制器出货量小鹏小鹏G9座舱座舱资料来源:小鹏汽车官网108201314418528010020030040050060020212022E2023E2024E2025E域控制器出货量(万套)86游戏市场是传统意义上游戏市场是传统意义上GPU最关键的市场最关键的市场随着千禧一代游戏需求的进一步提升,全球游戏玩家数量稳增,相应地扩展了游戏GPU市场规模。Newzoo Expert预计2020-2025年全球游戏玩家人数复合年增率为4.2%。游戏游戏GPU的主要分类的主要分类根据现行市场上的主要产品可划分为四类:1)游戏机、2)PC端主机游戏、3)控制台、4)VR&AR资料来源:Newzoo Expert(含预测),中信证券研究部3.3 游戏玩家人数持续增游戏玩家人数持续增长长,游戏,游戏GPU市场市场规模稳中有升规模稳中有升全球玩家数(亿人)全球玩家数(亿人)游戏游戏GPU分类分类资料来源:游戏 GPU 市场-增长、趋势、COVID-19 影响和预测Mordor Intelligence,中信证券研究部分类分类描述描述游戏机主要产品包括Nintendo Switch、Xbox One,同时索尼、微软也相竞推出新产品PC端主机游戏随着对于高画质的游戏需求,各厂商均试图超越4k,提升刷新率至120fps控制台电子竞技、视频游戏的兴起,增大了对控制台的需求和品控要求,提升了竞争门槛VR、AR与各类应用程序逐渐融合,重新定义人机交互、体验模式,提高用户体验感20.30 21.70 23.30 24.90 26.40 28.7930.5731.9833.06 34.18 35.340.005.0010.0015.0020.0025.0030.0035.0040.00201520162017201820192020202120222023E2024E2025E87PC游戏市场主体游戏市场主体PC指单机电脑、个人电脑。PC端游戏是通过计算机进行相关操作,实现人机交互的游戏方式。根据Jon Peddie Research统计,2021年Q4全球PC GPU出货量(包括集成和独立显卡)高达11000万片。受到俄乌冲突、天然气供应等冲击性全球事件影响,2022年Q1、Q2,全球PC GPU出货量略有下降。GPU与与PC配售比配售比配售比指GPU与PC主机的整体采用率,由于PC正常运行必须要求硬件上同时具备CPU和GPU,因此每台PC至少需要一张集成显卡或独立显卡,此外,根据需求可再增购独立显卡。根据JPR统计,全球GPU与PC配售比在2022Q1达到了129%。资料来源:JPR,华经产业研究院,中信证券研究部3.3 PC GPU全球出货量稳中有升全球出货量稳中有升2018-2022年年Q2全球全球PC GPU出货量(万片)出货量(万片)2018-2022年年Q2全球全球GPU与与PC配售比配售比6763677783008072762476708900920387158932985111864119001230010100110009600840002000400060008000100001200014000资料来源:JPR,华经产业研究院,中信证券研究部14081500808123775191%0 00003.4 国内企业国内企业:景嘉微、:景嘉微、中船中船占据军民信创占据军民信创,海光,海光GPGPU领先领先公司公司地区地区成立时间成立时间估值估值/市值市值创始人创始人/核心核心人员人员技术背景技术背景主要主要GPU产品产品景嘉微电子景嘉微电子长沙2006368亿曾万辉(国防科大微波毫米波硕士)、胡亚华(国防科大通信电子硕士、讲师)、饶先宏(核心技术人员,国防科大运筹学硕士、副教授,公司首席专家)初始技术来自ATI,核心技术团队来自国防科大JM5(已在军机广泛使用)、JM7(包含民用信创主力产品)、JM9(2021推出)系列图形GPU凌久电子凌久电子武汉1983未上市初始技术来自ATI,核心团队来自中船重工GP101(实现了我国通用3D显卡的突破)GP102中船重工中船重工716研究所研究所连云港1965未上市核心技术团队来自中船重工JARIG12(是2018年性能最强的国产通用图形处理器)航锦科技航锦科技辽宁/长沙1997229亿并购长沙韶光SG6931GPU芯原微电子芯原微电子上海2001301亿戴伟民(董事长,UC Berkeley计算机博士,UC圣克鲁兹教授,Ultima创始人,原Celestry董事长/CTO)、戴伟进(副总裁,UC Berkeley计算机硕士,曾任职于惠普、朗讯贝尔实验室、Cadence,美国图芯CEO)收购图芯美国(Vivante)Vivante GPU IP龙芯中科龙芯中科北京2008457亿胡伟武(董事长、总经理,中科院计算所博士、曾任中科院计算所研究员、博导、总工程师)自研7A2000桥片集成显卡兆芯兆芯上海2013未上市叶峻(上海联和投资总经理,曾任上海华虹董事、上海宏力董事)架构及IP来源于台湾VIA(VIA收购了原GPU主流厂商S3 Graphics)、美国Centaur IPC320、C860、C960、C1080集成显卡海光信息海光信息北京20141176亿孟宪堂(董事长,原发改委处长、副司长、国科控股副总)、沙超群(总经理,教授级高工,原中科曙光技术副总裁/高级副总裁)、历军(教授级高工,中科曙光总裁)GPU技术与AMD有合作,结合自主研发,核心团队来自中科曙光深算一号DCU(海光8100 GPGPU,性能接近V100,核心数达到V100 80%,兼容ROCm)国内典型国内典型GPU企业列表企业列表资料来源:芯榜微信公众号,界面新闻,IT桔子,中信证券研究部;注:市值基于2023年2月10日收盘价;估值分别转引自芯榜、IT桔子893.4 国内企业国内企业:创业公司:创业公司百花齐放百花齐放公司公司地区地区成立时间成立时间估值估值/市值市值创始人创始人/核心核心人员人员技术背景技术背景主要主要GPU产品产品芯动科技芯动科技珠海2007300亿敖海(创始人/董事长/CEO)Imagination BXT IP风华1号服务器GPU,风华2号桌面GPU天数智芯天数智芯上海/南京2015/12/29150亿刁石京(董事长/总经理,曾任紫光集团DRAM事业群董事长、紫光集团联席总裁、紫光国微董事长、紫光展锐执行董事长、长江存储执行董事、工信部电信司司长)、吕坚平(CTO)天垓100 GPGPU(已量产),中国第一家通用GPU高端芯片及超级算力提供商壁仞科技壁仞科技上海2019/9/9170亿张文(创始人/董事长/CEO,哈佛法学博士,曾任商汤科技总裁)、李新荣(联席CEO,原AMD全球副总裁、AMD中国研发中心总经理)BR100 GPGPU(理论性能超越英伟达H100)、BR104 GPGPU(AI性能超越英伟达A100)沐曦集成电路沐曦集成电路上海2020/9/14150亿陈维良(创始人/董事长/CEO,原AMD高管,负责GPGPU产品线整体设计管理),彭莉(CTO/首席硬件架构师,AMD首席SoC架构师,系统架构师,AMD全球首位华人女Fellow)、杨建(CTO/首席软件架构师,AMD大中华区首位Fellow)MXN AI推理芯片,MXC GPGPU,MXG图形渲染GPU登临科技登临科技上海2017/11/17150亿李建文(创始人/董事长,曾任图芯科技副总裁)、王震宇(联合创始人,曾任职于龙芯、百度美国研究院)、王平(联合创始人,曾任图芯首席架构师)、杨剑(全球运营副总裁,曾任华为全球供应链副总裁、思科全球供应链副总裁)Goldwasser系列GPU AI加速卡摩尔线程摩尔线程北京2020/6/11150亿张建中(创始人/CEO,前NVIDIA全球副总裁、中国区总经理,曾任职于惠普、戴尔)Imagination BXTMTT S80/60/30/10桌面GPU,MTT S3000服务器GPU,国产首颗全功能GPU及PCIe5.0 GPU,成立一年半即推出苏堤架构,2022年底实现第二代架构春晓架构量产芯瞳半导体芯瞳半导体西安2019/11/2020亿黄虎才(董事长,任职于西安邮电大学)GenBu01 GPU(面向信创市场,40nm制程)中微电中微电深圳2009/4/1梅思行(前NVIDIA主架构设计工程师,参与设计第一代GeForce、第一个可编程GPU、第一个GPGPU G80,曾任职于IBM、SGI),周志德(斯坦福计算机博士,MIPS联合创始人/首席工程师,曾任SGI首席架构师,开发Pro64/Open64编译器,主导华为方舟编译器)南风一号GPU(2022年7月流片成功)、南风二号游戏GPU、南风三号AI GPU国内典型国内典型GPU企业列表企业列表资料来源:芯榜微信公众号,界面新闻,IT桔子,中信证券研究部;注:市值基于2023年2月10日收盘价;估值分别转引自芯榜、IT桔子903.4 国产国产GPGPU:算力逐步提升,计算框架力求兼容算力逐步提升,计算框架力求兼容厂家厂家产品产品推出时间推出时间生态生态工艺制程工艺制程峰值功耗峰值功耗核心数核心数FP32算算力力FP32张张量算力量算力FP16/BF16算力算力INT8算力算力显存类型显存类型显存容量显存容量显存位宽显存位宽显存带宽显存带宽单位单位nmWTFLOPsTFLOPsTFLOPsTOPsGBbitGB/sNVIDIAV100 SXM22017CUDA12300512015.7125HBM2324096900NVIDIAA100 SXM2020CUDA7400691219.5156624HBM2e8051202039NVIDIAH100 SXM2022CUDA470016896605001204000HBM38051203072AMDMI1002020 ROCm7300768023.146.1184.6184.6HBM23240961228AMDMI2102022 ROCm6300665622.645.3181181HBM2e6440961638AMDMI2502021 ROCm65601331245.390.5362.1362.1HBM2e12881923277AMDMI250X2021 ROCm65601408047.995.7383383HBM2e12881923277海光海光深算一号2021 ROCm73504096HBM23240961024摩尔线程摩尔线程MTT S20002022CUDA12150409610.640GDDR632摩尔线程摩尔线程MTT S30002022CUDA409615.2GDDR632256448天数智芯天数智芯BI-V1002021CUDA725018.53737295HBM2321228壁仞科技壁仞科技BR1002022CUDA725651210242048HBM2e64壁仞科技壁仞科技BR1042022CUDA7nm1282565121024HBM2e32壁仞科技壁仞科技BR100P2022CUDA7nm5502404809601920HBM2e6440961638壁仞科技壁仞科技BR104P2022CUDA7nm300112224448896HBM2e322048819登临科技登临科技UL32CUDA10832登临科技登临科技UL64CUDA151664登临科技登临科技L32CUDA2532128登临科技登临科技L64CUDA4564256登临科技登临科技XLCUDA12012851232/64部分国产部分国产GPGPU与国际主流产品性能对比与国际主流产品性能对比资料来源:各公司官网,海光信息招股说明书,中信证券研究部913.4 国产国产图形图形GPU:硬件性能:硬件性能增长增长,图形图形API逐步适配逐步适配发布发布年份年份工艺工艺制程制程功耗功耗/W显存类型显存类型显存容量显存容量/GB显存带宽显存带宽/G/s核心频率核心频率/MHz像素填充像素填充率率/GP/sFP32算力算力/TFlops总线接口总线接口OpenGLDirectX/VulkanATI M96200955nmGDDR30.519.2-PCIe3.02.0DX10Nvidia GT640201228nm50DDR32809507.220.69PCIe3.04.1DX11Nvidia GTX1050201614nmGDDR52112135436.41.8PCIe3.04.5DX12Nvidia GTX1080201616nmGDDR5832016071118.9PCIe3.0*164.5DX12Nvidia RTX306020208nmGDDR612360178085.312.8PCIe4.0*164.6DX12/Vulkan景嘉微景嘉微JM5400201565nm6DDR319.65502.20.16PCI 2.31.3-景嘉微景嘉微JM7201201828nm5-15DDR341713005.20.5PCIe2.0*162.0-景嘉微景嘉微JM9100202214nm5-15GDDR682561500320.5PCIe4.0*84.0Vulkan1.1景嘉微景嘉微JM9200202214nm15-30GDDR61651218001281.2PCIe4.0*84.0Vulkan1.1凌久凌久GP1012018-3-7DDR3110.66002.4PCIe2.0*42.0-JARI G122018-3-7PCIe3.02.0-芯瞳芯瞳GenBu01202040nm3533PCIe2.0*44.3-芯动科技风华芯动科技风华1号号202112nm20/40GDDR6163041605PCIe4.0*164.3Vulkan1.2芯动科技风华芯动科技风华2号号20224-15LPDDR5X8102481.5PCIe3.0*84.3Vulkan1.2摩尔线程摩尔线程MTT S60202212nmLPDDR4X81926支持DX9/DX11(不完全)/Vulkan摩尔线程摩尔线程MTT S8020227nm114-250GDDR616448180014.4PCIe5.0*16支持DX9/DX11(不完全)/Vulkan部分国产图形部分国产图形GPU与国际主流产品性能对比与国际主流产品性能对比资料来源:各公司官网,各公司数据手册,芯参数,中信证券研究部923.5 海光:海光:CPU GPU双线发展,本土应用双线发展,本土应用 产业生态双重优势产业生态双重优势资料来源:海光信息官网,中信证券研究部海光海光CPU:兼容x86指令集,处理器性能参数与国际同类主流处理器产品相当,支持国内外主流操作系统、数据库、虚拟化平台或云计算平台,能够有效兼容目前存在的数百万款基于x86指令集的系统软件和应用软件,具有优异的生态系统优势。海光海光DCU:兼容“类CUDA”环境,软硬件生态丰富,典型应用场景下性能指标达到国际上同类型高端产品的水平。3)公司主动融入国内外开源社区,积极向开源社区提供适用于海光CPU、海光DCU的适配和优化方案,保证了海光高端处理器在开源生态的兼容性。公司下游服务器厂商开发了多款基于海光处理器的服务器公司下游服务器厂商开发了多款基于海光处理器的服务器,有效地推动了海光高端处理器的产业化有效地推动了海光高端处理器的产业化。目前,海光CPU已经应用到了电信、金融、互联网、教育、交通等行业;海光DCU主要面向大数据处理、商业计算等计算密集型应用领域以及人工智能、泛人工智能应用领域。公司正持续大力投入研发实现公司正持续大力投入研发实现GPU架构创新升级和快速迭代步调架构创新升级和快速迭代步调,力争赶超国际领先水力争赶超国际领先水平;同时加大生态建设力度平;同时加大生态建设力度,打造自主开放的通用计算软件生态体系打造自主开放的通用计算软件生态体系。风险因素:风险因素:公司核心技术积累不足或研发迭代不及预期的风险;公司的供应商集中度较高且部分供应商替代困难的风险;市场竞争加剧的风险;宏观环境带来的市场不确定性风险;国产化需求节奏放缓的风险。海光产品生态海光产品生态资料来源:海光信息及其他公司官网,中信证券研究部海光产业链客户海光产业链客户93海光海光DCU属于属于GPGPU的一种的一种,兼容通用的兼容通用的“类类CUDA”环境环境。海光海光DCU协处理器全面兼容协处理器全面兼容ROCmGPU计算生态计算生态,由于ROCm和CUDA在生态、编程环境等方面具有高度的相似性,CUDA用户可以以较低代价快速迁移至用户可以以较低代价快速迁移至ROCm平台平台,因此ROCm也被称为“类CUDA”,主要部署在服务器集群或数据中心,为应用程序提供高性能、高能效比的算力,支撑高复杂度和高吞吐量的数据处理任务。海光DCU的主要功能模块包括计算单元(CU)、片上网络、高速缓存、各类接口控制器等。资料来源:海光信息招股说明书,中信证券研究部海光海光DCU组成架构示意图组成架构示意图3.5 海光海光DCU:基于:基于GPGPU,兼容“类,兼容“类CUDA”环境”环境海光海光8100产品图片典型功耗260-351W典型运算类型双精度、单精度、半精度浮点数据和各种常见整型数据计算60-64个计算单元(最多4096个计算核心)支持FP64、FP32、FP16、INT8、INT4内存4个HBM2内存通道最高内存带宽为1TB/s最高内存带宽为1TB/s最大内存容量为32GBI/O16LanePCIeGen4DCU芯片之间高速互连资料来源:海光信息招股说明书,中信证券研究部海光海光8100系列产品主要规格和特点系列产品主要规格和特点目前公司将海光目前公司将海光DCU产品规划为海光产品规划为海光8000系列系列。94资料来源:海光信息招股说明书,中科曙光年报,中信证券研究部海光信息历年营收及增速海光信息历年营收及增速资料来源:海光信息招股说明书,中信证券研究部海光信息历年分业务营收占比海光信息历年分业务营收占比资料来源:海光信息招股说明书,中信证券研究部海光信息历年归母净利润及增速海光信息历年归母净利润及增速资料来源:海光信息招股说明书,中信证券研究部海光信息历年分行业营收占比海光信息历年分行业营收占比3.5 海光财务分析:收入高增净利扭亏,海光财务分析:收入高增净利扭亏,GPU逐渐起量逐渐起量0.040.140.483.7910.2223.125.3242.99%5.34h5.819.536.0742.75%00 0000P00p0010152025302016201720182019202020212022H1营收(亿元)同比增速(%)-1.24-0.83-0.393.274.76-1.74-0.93-0.952.654.36-36.23%-8.12.94.04%-40%-30%-20%-10%0 0%-3-2-1012345620182019202020212022H1归母净利润(亿元)扣非归母净利润(亿元)销售净利率(%)89.36.98v.91d.99.64%1.32.62%8.31.70.47.36.34%0 0Pp0 1820192020202170005000300080004.94%9.98.95%1.45%5.46.25.79.76%9.35P.00.71.67%5.23%4.63%2.66%.58H.46.11%0.00.00 .000.00.00P.00.00p.00.00.000.00 1920202021电信金融互联网教育交通其他953.5 GPU创业公司:理论性能良好,长期前景可期创业公司:理论性能良好,长期前景可期资料来源:FUN科技bilibili,中信证券研究部摩尔线程摩尔线程MTT S80MTT S80与英伟达产品理论性能对比与英伟达产品理论性能对比资料来源:FUN科技bilibili,中信证券研究部摩尔线程摩尔线程MTT S80MTT S80与英伟达产品实测帧率对比与英伟达产品实测帧率对比1831181476458165374182150050100150200像素填充率/GPixel/s单纹理填充率/GTexel/s多重纹理填充率/GTexel/sMTT S80RTX3060GTX1650RTX30902698455218475238229050100150200UnigineValley帧率4KFurmark帧率1080pPixmark Piano帧率1080pMTT S80RTX3060GTX1650资料来源:壁仞科技官网,中信证券研究部壁仞科技壁仞科技BR100BR100与国际领先产品算力对比与国际领先产品算力对比资料来源:壁仞科技官网,中信证券研究部壁仞科技壁仞科技BR104BR104与英伟达与英伟达A100A100单卡单卡AIAI性能对比性能对比摩尔线程摩尔线程生态合作伙伴生态合作伙伴资料来源:摩尔线程2022春季发布会60500100020002565121024204805001000150020002500FP 32TF32 TF32BF16INT8TFLOPS/TOPSBR100H100 SXM53082.52766.71418931751.560100002000030000400005000060000ResNet50BERT每秒样本数BR104NVIDIA A100964.风险因素风险因素97风险因素风险因素1)产业链安全风险:产业链安全风险:国外GPU行业起步较早,产业链中诸如EDA工具,芯片制造等重要环节国内与海外发展水平仍有较大差距。介于中美贸易、科技摩擦的背景,国内企业受到制裁导致原有产业链断裂的可能仍存在,对国内企业未来新产品研发进度、产品工艺更新、供应链保障等造成不利影响。2)市场竞争加剧:市场竞争加剧:全球GPU市场由NVIDIA、AMD主导,国内市场存在部分已经形成规模的政策红利玩家和若干新兴企业。随着国内外厂商技术不断升级和国内企业持续壮大,GPU市场竞争程度或将加剧,对于上市公司的经营能力、技术升级等方面提出更高要求,公司未来业绩或将受影响。3)商业需求不及预期风险:商业需求不及预期风险:由于国产GPU在性能和生态建设方面与NVIDIA、AMD等存在差距,在纯商业化领域失去政策驱动,可能因为自身产品竞争力不足,导致需求低于预期。4)产品研发不及预期风险:产品研发不及预期风险:产品研发需要持续投入大量资金人才,且研发成果不确定性较高。倘若研发进度不及预期或研发失败,企业将可能面临亏损。5)国产替代进程不及预期风险国产替代进程不及预期风险:对于技术、政策等因素影响下,对国产替代的需求释放不及预期,将影响公司未来的业绩。6)宏观经济环境风险宏观经济环境风险:面对宏观经济以及疫情等影响,全球范围的核心零部件供应链或将受到影响。985.投资建议投资建议99投资建议投资建议投资建议:投资建议:通过对GPU的各类重要参数的研究,我们提出GPU的核心竞争力在于微架构等因素先进带来性能领先和与之适配的完核心竞争力在于微架构等因素先进带来性能领先和与之适配的完善软硬件生态善软硬件生态。借鉴这一研究框架并通过复盘借鉴这一研究框架并通过复盘NVIDIA/AMD(ATI)的竞争史的竞争史,再次验证再次验证NVIDIA凭借性能领先和生态完善长期占有GPU市场八成份额。AMD(ATI)也曾凭借Radeon 9800和RDNA架构系列产品实现性能反超。这些经验对国产厂商具有一定的借鉴意义,国产厂商正持续大力投入研发实现GPU架构创新升级和快速迭代步调,力争赶超国际领先水平;同时加大生态建设力度,打造自主开放的通用计算软件生态体系。近年来,GPU行业迎来黄金发展期,游戏、数据中心、汽车市场已爆发大量需求;中长期来看,GPU产业有望逐步走向全面市场驱动。目前供给端国产GPU厂商在性能方面正在加速追赶,已开始具备应对需求爆发式增长的供给能力。加之国际科技制裁带来的发展机遇,国产国产GPU厂商有望迎来成长黄金期厂商有望迎来成长黄金期。料外部不确定性背景下,国产GPU可控需求加速,伴随国际形势变化、政策大力扶持、游戏&AI、数据中心&汽车领域等行业对GPU需求持续增长、产品性能提升、产业生态完善,国产GPU厂商有望加速崛起。重点看好重点看好GPU领域龙头厂领域龙头厂商长期机遇商长期机遇,建议关注建议关注国产国产GPU龙头企业龙头企业。1)推荐:海光信息推荐:海光信息(CPU GPGPU)。建议关注景嘉微建议关注景嘉微、寒武纪寒武纪(电子电子覆盖覆盖)。2)一级市场一级市场(排名不分先后排名不分先后):壁仞科技:壁仞科技、摩尔线程摩尔线程、沐曦沐曦、天数智芯天数智芯、登临科技登临科技、燧原科技等燧原科技等。感谢您的信任与支持!感谢您的信任与支持!THANK YOU100丁奇丁奇(云基础设施首席分析师云基础设施首席分析师)执业证书编号:S1010519120003杨泽原杨泽原(计算机行业首席分析师计算机行业首席分析师)执业证书编号:S1010517080002免责声明免责声明101分析师声明分析师声明主要负责撰写本研究报告全部或部分内容的分析师在此声明:(i)本研究报告所表述的任何观点均精准地反映了上述每位分析师个人对标的证券和发行人的看法;(ii)该分析师所得报酬的任何组成部分无论是在过去、现在及将来均不会直接或间接地与研究报告所表述的具体建议或观点相联系。一般性声明一般性声明本研究报告由中信证券股份有限公司或其附属机构制作。中信证券股份有限公司及其全球的附属机构、分支机构及联营机构(仅就本研究报告免责条款而言,不含CLSAgroup of companies),统称为“中信证券”。本研究报告对于收件人而言属高度机密,只有收件人才能使用。本研究报告并非意图发送、发布给在当地法律或监管规则下不允许向其发送、发布该研究报告的人员。本研究报告仅为参考之用,在任何地区均不应被视为买卖任何证券、金融工具的要约或要约邀请。中信证券并不因收件人收到本报告而视其为中信证券的客户。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,不应被视为对特定客户关于特定证券或金融工具的建议或策略。对于本报告中提及的任何证券或金融工具,本报告的收件人须保持自身的独立判断并自行承担投资风险。本报告所载资料的来源被认为是可靠的,但中信证券不保证其准确性或完整性。中信证券并不对使用本报告或其所包含的内容产生的任何直接或间接损失或与此有关的其他损失承担任何责任。本报告提及的任何证券或金融工具均可能含有重大的风险,可能不易变卖以及不适合所有投资者。本报告所提及的证券或金融工具的价格、价值及收益可跌可升。过往的业绩并不能代表未来的表现。本报告所载的资料、观点及预测均反映了中信证券在最初发布该报告日期当日分析师的判断,可以在不发出通知的情况下做出更改,亦可因使用不同假设和标准、采用不同观点和分析方法而与中信证券其它业务部门、单位或附属机构在制作类似的其他材料时所给出的意见不同或者相反。中信证券并不承担提示本报告的收件人注意该等材料的责任。中信证券通过信息隔离墙控制中信证券内部一个或多个领域的信息向中信证券其他领域、单位、集团及其他附属机构的流动。负责撰写本报告的分析师的薪酬由研究部门管理层和中信证券高级管理层全权决定。分析师的薪酬不是基于中信证券投资银行收入而定,但是,分析师的薪酬可能与投行整体收入有关,其中包括投资银行、销售与交易业务。若中信证券以外的金融机构发送本报告,则由该金融机构为此发送行为承担全部责任。该机构的客户应联系该机构以交易本报告中提及的证券或要求获悉更详细信息。本报告不构成中信证券向发送本报告金融机构之客户提供的投资建议,中信证券以及中信证券的各个高级职员、董事和员工亦不为(前述金融机构之客户)因使用本报告或报告载明的内容产生的直接或间接损失承担任何责任。评级说明评级说明投资建议的评级标准投资建议的评级标准评级评级说明说明报告中投资建议所涉及的评级分为股票评级和行业评级(另有说明的除外)。评级标准为报告发布日后6到12个月内的相对市场表现,也即:以报告发布日后的6到12个月内的公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。其中:A股市场以沪深300指数为基准,新三板市场以三板成指(针对协议转让标的)或三板做市指数(针对做市转让标的)为基准;香港市场以摩根士丹利中国指数为基准;美国市场以纳斯达克综合指数或标普500指数为基准;韩国市场以科斯达克指数或韩国综合股价指数为基准。股票评级买入相对同期相关证券市场代表性指数涨幅20%以上增持相对同期相关证券市场代表性指数涨幅介于5 %之间持有相对同期相关证券市场代表性指数涨幅介于-10%5%之间卖出相对同期相关证券市场代表性指数跌幅10%以上行业评级强于大市相对同期相关证券市场代表性指数涨幅10%以上中性相对同期相关证券市场代表性指数涨幅介于-10%之间弱于大市相对同期相关证券市场代表性指数跌幅10%以上证券研究报告证券研究报告2023年年2月月13日日免责声明免责声明102特别声明特别声明在法律许可的情况下,中信证券可能(1)与本研究报告所提到的公司建立或保持顾问、投资银行或证券服务关系,(2)参与或投资本报告所提到的公司的金融交易,及/或持有其证券或其衍生品或进行证券或其衍生品交易,因此,投资者应考虑到中信证券可能存在与本研究报告有潜在利益冲突的风险。本研究报告涉及具体公司的披露信息,请访问https:/Limited(于中国香港注册成立的有限公司)分发;在中国台湾由CL Securities Taiwan Co.,Ltd.分发;在澳大利亚由CLSA Australia Pty Ltd.(商业编号:53 139 992 331/金融服务牌照编号:350159)分发;在美国由CLSA(CLSA Americas,LLC除外)分发;在新加坡由CLSA Singapore Pte Ltd.(公司注册编号:198703750W)分发;在欧洲经济区由CLSA Europe BV分发;在英国由CLSA(UK)分发;在印度由CLSA India Private Limited分发(地址:8/F,Dalamal House,Nariman Point,Mumbai 400021;电话: 91-22-66505050;传真: 91-22-22840271;公司识别号:U67120MH1994PLC083118);在印度尼西亚由PT CLSA Sekuritas Indonesia分发;在日本由CLSA Securities Japan Co.,Ltd.分发;在韩国由CLSA Securities Korea Ltd.分发;在马来西亚由CLSASecurities Malaysia Sdn Bhd分发;在菲律宾由CLSAPhilippines Inc.(菲律宾证券交易所及证券投资者保护基金会员)分发;在泰国由CLSASecurities(Thailand)Limited分发。针对不同司法管辖区的声明针对不同司法管辖区的声明中国大陆:中国大陆:根据中国证券监督管理委员会核发的经营证券业务许可,中信证券股份有限公司的经营范围包括证券投资咨询业务。中国香港:中国香港:本研究报告由CLSA Limited分发。本研究报告在香港仅分发给专业投资者(证券及期货条例(香港法例第571 章)及其下颁布的任何规则界定的),不得分发给零售投资者。就分析或报告引起的或与分析或报告有关的任何事宜,CLSA客户应联系CLSA Limited的罗鼎,电话: 852 2600 7233。美国:美国:本研究报告由中信证券制作。本研究报告在美国由CLSA(CLSA Americas,LLC除外)仅向符合美国1934年证券交易法下15a-6规则界定且CLSA Americas,LLC提供服务的“主要美国机构投资者”分发。对身在美国的任何人士发送本研究报告将不被视为对本报告中所评论的证券进行交易的建议或对本报告中所述任何观点的背书。任何从中信证券与CLSA获得本研究报告的接收者如果希望在美国交易本报告中提及的任何证券应当联系CLSA Americas,LLC(在美国证券交易委员会注册的经纪交易商),以及CLSA 的附属公司。新加坡:新加坡:本研究报告在新加坡由CLSA Singapore Pte Ltd.,仅向(新加坡财务顾问规例界定的)“机构投资者、认可投资者及专业投资者”分发。就分析或报告引起的或与分析或报告有关的任何事宜,新加坡的报告收件人应联系CLSA Singapore Pte Ltd,地址:80 Raffles Place,#18-01,UOB Plaza 1,Singapore 048624,电话: 65 6416 7888。因您作为机构投资者、认可投资者或专业投资者的身份,就CLSA Singapore Pte Ltd.可能向您提供的任何财务顾问服务,CLSA Singapore Pte Ltd豁免遵守财务顾问法(第110章)、财务顾问规例以及其下的相关通知和指引(CLSA业务条款的新加坡附件中证券交易服务C部分所披露)的某些要求。MCI(P)085/11/2021。加拿大:加拿大:本研究报告由中信证券制作。对身在加拿大的任何人士发送本研究报告将不被视为对本报告中所评论的证券进行交易的建议或对本报告中所载任何观点的背书。英国:英国:本研究报告归属于营销文件,其不是按照旨在提升研究报告独立性的法律要件而撰写,亦不受任何禁止在投资研究报告发布前进行交易的限制。本研究报告在英国由CLSA(UK)分发,且针对由相应本地监管规定所界定的在投资方面具有专业经验的人士。涉及到的任何投资活动仅针对此类人士。若您不具备投资的专业经验,请勿依赖本研究报告。欧洲经济区:欧洲经济区:本研究报告由荷兰金融市场管理局授权并管理的CLSAEurope BV 分发。澳大利亚:澳大利亚:CLSA Australia Pty Ltd(“CAPL”)(商业编号:53 139 992 331/金融服务牌照编号:350159)受澳大利亚证券与投资委员会监管,且为澳大利亚证券交易所及CHI-X的市场参与主体。本研究报告在澳大利亚由CAPL仅向“批发客户”发布及分发。本研究报告未考虑收件人的具体投资目标、财务状况或特定需求。未经CAPL事先书面同意,本研究报告的收件人不得将其分发给任何第三方。本段所称的“批发客户”适用于公司法(2001)第761G条的规定。CAPL研究覆盖范围包括研究部门管理层不时认为与投资者相关的ASXAll Ordinaries 指数成分股、离岸市场上市证券、未上市发行人及投资产品。CAPL寻求覆盖各个行业中与其国内及国际投资者相关的公司。印度:印度:CLSA India Private Limited,成立于 1994 年 11 月,为全球机构投资者、养老基金和企业提供股票经纪服务(印度证券交易委员会注册编号:INZ000001735)、研究服务(印度证券交易委员会注册编号:INH000001113)和商人银行服务(印度证券交易委员会注册编号:INM000010619)。CLSA 及其关联方可能持有标的公司的债务。此外,CLSA及其关联方在过去 12 个月内可能已从标的公司收取了非投资银行服务和/或非证券相关服务的报酬。如需了解CLSA India“关联方”的更多详情,请联系Compliance-I。未经中信证券事先书面授权未经中信证券事先书面授权,任何人不得以任何目的复制任何人不得以任何目的复制、发送或销售本报告发送或销售本报告。中信证券中信证券2023版权所有版权所有,保留一切权利保留一切权利。

5人已浏览 2023-02-14 102页 5星级


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有